Apache Spark, kerangka analisis data besar, diperbarui ke versi 3.0

Apache Spark adalah kerangka kerja komputasi cluster open source yang menyediakan antarmuka untuk pemrograman cluster lengkap dengan Paralelisme Data Implisit dan toleransi kesalahan, yang basis kode proyek Spark didonasikan ke Apache Software Foundation yang bertanggung jawab atas pemeliharaannya.

Apache Spark dapat dianggap sebagai sistem komputasi cluster berorientasi kecepatan dan tujuan umum.

Sediakan API di Java, Scala, Python dan R, plus juga menyediakan mesin yang dioptimalkan yang mendukung eksekusi grafik secara umum.

juga mendukung seperangkat alat tingkat tinggi yang ekstensif dan kaya di antaranya saya tahu termasuk Spark SQL (untuk pemrosesan data terstruktur berbasis SQL), MLlib untuk mengimplementasikan pembelajaran mesin, GraphX untuk pemrosesan grafik, dan Spark Streaming.

Spark SQL adalah modulnya Apache Spark untuk bekerja dengan data terstruktur dan sangat populer di aplikasi Spark. Menurut Databricks, perusahaan yang didirikan oleh pencipta Apache Spark, bahkan pengembang Python dan Scala melakukan banyak pekerjaan mereka dengan mesin Spark SQL.

Spark saat ini adalah kerangka kerja de facto untuk pemrosesan data besar, ilmu data, pembelajaran mesin, dan analitik data.

Tentang Apache Spark 3.0

Sekarang kerangka dalam versi 3.0-nya dan di antara fitur baru yang paling penting, perlu dicatat bahwa Spark 3.0 dua kali lebih cepat dibandingkan versi sebelumnya dengan mengandalkan TPC-DS, antara lain.

Peningkatan kinerja ini tercapai melalui perbaikan seperti menjalankan kueri adaptif, pemangkasan partisi dinamis dan pengoptimalan lainnya. Kepatuhan dengan standar ANSI SQL juga telah ditingkatkan.

Spark 3.0 adalah versi utama dengan lebih dari 3400 tiket terselesaikan, tetapi hanya dalam perubahan utama Mereka membatasi diri pada fitur baru utama untuk SQL dan Python, antara lain.

Apache Spark 3.0 memperkuat posisi ini dengan sangat meningkatkan dukungan untuk SQL dan Python, dua bahasa yang paling banyak digunakan dengan Spark saat ini dan dengan memberikan banyak pengoptimalan di semua tingkatan.

PySpark, Spark API untuk Python, memiliki lebih dari 5 juta unduhan bulanan di PyPI, indeks paket Python. Banyak pengembang Python Mereka menggunakan API untuk analisis data, meskipun terbatas pada pemrosesan node tunggal.

Python, oleh karena itu, area utama pengembangan Spark 3.0. Pengembangan API di Apache Spark telah dipercepat untuk membuat data scientist lebih produktif saat bekerja dengan data besar di lingkungan terdistribusi.

Koala menghilangkan kebutuhan untuk membuat banyak fungsi (mis. dukungan grafik) di PySpark, untuk kinerja yang lebih baik dalam sebuah cluster.

Sejauh ini, kita dapat mengatakan bahwa peran Spark seringkali terbatas pada ETL (Extract Transform Load).

Ini menghasilkan peningkatan signifikan khususnya pada API, termasuk petunjuk jenis Python dan UDF panda tambahan (fungsi yang ditentukan pengguna).

Spark 3.0 menawarkan penanganan kesalahan Python yang lebih baik, dan panggilan ke fungsi R yang ditentukan pengguna hingga 40 kali lebih cepat.

Perlu juga dicatat bahwa di Spark 3.0, 46% dari semua perbaikan adalah untuk fungsionalitas SQL, yang telah meningkatkan kinerja dan kompatibilitas ANSI.

Itu berkata, Tiga fitur baru yang paling penting di mesin Spark SQL adalah eksekusi kueri adaptif.

Metode pengoptimalan Kueri umumnya berfokus pada pengoptimalan kueri statis.

Karena pemisahan penyimpanan dan pemrosesan di Spark, kedatangan data tidak dapat diprediksi. Karena alasan ini, eksekusi kueri adaptif menjadi lebih penting untuk Spark daripada untuk sistem tradisional.

Ada banyak fitur lain yang dapat Anda lihat di catatan rilis. Fitur yang mencakup sumber data, ekosistem, pemantauan, debugging, dan lainnya.

Anda dapat memeriksa catatan rilis dengan membuka tautan berikut.

sumber: https://spark.apache.org/

Ubunlog

Apache Spark, kerangka kerja analisis data besar diperbarui ke versi 3.0-nya

Tentang Apache Spark 3.0

tinggalkan Komentar Anda Batalkan balasan