Apache Spark, kerangka analisis data besar diperbaharui ke versi 3.0

Apache Spark adalah kerangka kerja pengkomputeran kluster sumber terbuka yang menyediakan antara muka untuk pengaturcaraan kluster lengkap dengan Implisit Data Parallelism dan Fault Tolerance, yang mana pangkalan data projek Spark disumbangkan kepada Apache Software Foundation yang bertanggungjawab dalam penyelenggaraannya.

Apache Spark boleh dianggap sebagai sistem pengkomputeran kluster berorientasikan kelajuan yang umum.

Sediakan API di Java, Scala, Python dan R, plus juga menyediakan enjin yang dioptimumkan yang menyokong pelaksanaan grafik secara umum.

juga menyokong satu set alat peringkat tinggi yang luas dan kaya antara yang saya tahu sertakan Spark SQL (untuk pemprosesan data berstruktur berdasarkan SQL), MLlib untuk melaksanakan pembelajaran mesin, GraphX ​​untuk pemprosesan grafik, dan Spark Streaming.

Spark SQL adalah modulnya Apache Spark kerana bekerja dengan data berstruktur dan sangat popular dalam aplikasi Spark. Menurut Databricks, syarikat yang diasaskan oleh pencipta Apache Spark, malah pemaju Python dan Scala banyak melakukan kerja mereka dengan mesin Spark SQL.

Spark hari ini adalah kerangka de facto untuk pemprosesan data besar, sains data, pembelajaran mesin, dan analisis data.

Mengenai Apache Spark 3.0

Sekarang kerangka terdapat dalam versi 3.0 dan antara ciri baru yang paling penting, perlu diperhatikan bahawa Spark 3.0 dua kali lebih pantas daripada versi sebelumnya dengan bergantung pada TPC-DS, antara lain.

Peningkatan prestasi ini dicapai melalui penambahbaikan seperti menjalankan pertanyaan adaptif, pemangkasan partisi dinamik dan pengoptimuman lain. Pematuhan dengan standard ANSI SQL juga telah ditingkatkan.

Spark 3.0 adalah versi utama dengan lebih dari 3400 tiket diselesaikan, tetapi dalam perubahan utama, hanya Mereka mengehadkan diri kepada ciri baru utama untuk SQL dan Python, antara lain.

Apache Spark 3.0 mengukuhkan kedudukan ini dengan meningkatkan sokongan untuk SQL dan Python, dua bahasa yang paling banyak digunakan dengan Spark hari ini dan dengan memberikan banyak pengoptimuman di semua peringkat.

PySpark, Spark API untuk Python, mempunyai lebih daripada 5 juta muat turun bulanan di PyPI, indeks pakej Python. Banyak pembangun Python Mereka menggunakan API untuk analisis data, walaupun terbatas pada pemprosesan simpul tunggal.

Oleh itu, Python bidang pembangunan utama untuk Spark 3.0. Pengembangan API di Apache Spark telah dipercepat untuk membuat para saintis data lebih produktif ketika bekerja dengan data besar di lingkungan yang diedarkan.

Koalas menghilangkan keperluan untuk membuat banyak fungsi (misalnya sokongan grafik) di PySpark, untuk prestasi yang lebih baik dalam kelompok.

Sejauh ini, kita dapat mengatakan bahawa peranan Spark sering terbatas pada peranan ETL (Extract Transform Load).

Ini menghasilkan peningkatan yang ketara terhadap API, termasuk petunjuk jenis Python dan UDF panda tambahan (fungsi yang ditentukan pengguna).

Spark 3.0 menawarkan pengendalian ralat Python yang lebih baik, dan panggilan ke fungsi R yang ditentukan pengguna hingga 40 kali lebih pantas.

Perlu juga diperhatikan bahawa dalam Spark 3.0, 46% daripada semua pembaikan adalah untuk fungsi SQL, yang telah meningkatkan prestasi dan keserasian ANSI.

Telah berkata bahawa, tiga ciri baru yang paling penting dalam mesin Spark SQL adalah pelaksanaan pertanyaan adaptif.

Kaedah pengoptimuman Pertanyaan biasanya menumpukan pada pengoptimuman pertanyaan statik.

Kerana pemisahan penyimpanan dan pemprosesan di Spark, kedatangan data tidak dapat diramalkan. Atas sebab-sebab ini, pelaksanaan permintaan adaptif menjadi lebih penting bagi Spark daripada sistem tradisional.

Terdapat banyak ciri lain yang boleh anda periksa dalam nota pelepasan. Ciri yang merangkumi sumber data, ekosistem, pemantauan, penyahpepijatan, dan banyak lagi.

Anda boleh menyemak nota pelepasan dengan pergi ke pautan berikut.

Fuente: https://spark.apache.org/


Tinggalkan komen anda

Alamat email anda tidak akan disiarkan. Ruangan yang diperlukan ditanda dengan *

*

*

  1. Bertanggungjawab atas data: Miguel Ángel Gatón
  2. Tujuan data: Mengendalikan SPAM, pengurusan komen.
  3. Perundangan: Persetujuan anda
  4. Komunikasi data: Data tidak akan disampaikan kepada pihak ketiga kecuali dengan kewajiban hukum.
  5. Penyimpanan data: Pangkalan data yang dihoskan oleh Occentus Networks (EU)
  6. Hak: Pada bila-bila masa anda boleh menghadkan, memulihkan dan menghapus maklumat anda.