Apache Spark, cadrul de analiză a datelor mari este reînnoit la versiunea sa 3.0

Apache Spark este un cadru calcul de cluster open source care oferă o interfață pentru programarea clusterelor completat cu paralelismul de date implicit și toleranța la erori, pe care baza de cod a proiectului Spark a fost donată Apache Software Foundation, care este responsabilă pentru întreținerea sa.

Apache Spark poate fi considerat un sistem de calcul cluster cu scop general, orientat pe viteză.

Furnizați API-uri în Java, Scala, Python și R, plus oferă, de asemenea, un motor optimizat care susține executarea graficelor în general.

de asemenea acceptă un set extins și bogat de instrumente de nivel înalt printre care știu include Spark SQL (pentru procesarea de date structurate pe bază de SQL), MLlib pentru a implementa învățarea automată, GraphX ​​pentru procesarea graficelor și Spark Streaming.

Spark SQL este modulul Apache Spark pentru lucrul cu date structurate și este foarte popular în aplicațiile Spark. Potrivit Databricks, compania fondată de creatorii Apache Spark, chiar și dezvoltatorii Python și Scala își fac o mare parte din munca lor cu motorul Spark SQL.

Spark este astăzi cadrul de facto pentru prelucrarea datelor mari, știința datelor, învățarea automată și analiza datelor.

Despre Apache Spark 3.0

Acum cadrul este în versiunea sa 3.0 și printre cele mai importante caracteristici noi, trebuie remarcat faptul că Spark 3.0 este de două ori mai rapid decât versiunea anterioară, bazându-se pe TPC-DS, printre altele.

Această creștere a performanței a fost atinsă prin îmbunătățiri cum ar fi rularea interogărilor adaptive, tăierea partițiilor dinamice și a altor optimizări. Conformitatea cu standardul ANSI SQL a fost, de asemenea, îmbunătățită.

Spark 3.0 este o versiune majoră cu peste 3400 de bilete rezolvate, dar numai în principalele modificări Se limitează la principalele caracteristici noi pentru SQL și Python, printre altele.

Apache Spark 3.0 întărește această poziție îmbunătățind considerabil suportul pentru SQL și Python, cele două cele mai utilizate limbi cu Spark astăzi și oferind multe optimizări la toate nivelurile.

PySpark, API-ul Spark pentru Python, are peste 5 milioane de descărcări lunare pe PyPI, indexul pachetului Python. Mulți dezvoltatori Python Ei folosesc API-ul pentru analiza datelor, deși este limitat la procesarea unui singur nod.

Python era, prin urmare, un domeniu cheie de dezvoltare pentru Spark 3.0. Dezvoltarea API pe Apache Spark a fost accelerată pentru a face oamenii de știință a datelor mai productivi atunci când lucrează cu date mari în medii distribuite.

Koalas elimină necesitatea de a crea multe funcții (de exemplu, suport grafic) în PySpark, pentru performanțe mai bune într-un cluster.

Până în prezent, putem spune că rolul lui Spark este adesea limitat la cel al unui ETL (Extract Transform Load).

Acest lucru duce în special la îmbunătățiri semnificative ale API-urilor, inclusiv sugestii de tip Python și UDF-uri pandas suplimentare (funcții definite de utilizator).

Spark 3.0 oferă o mai bună gestionare a erorilor Python, iar apelurile către funcțiile R definite de utilizator sunt de până la 40 de ori mai rapide.

De asemenea, trebuie remarcat faptul că în Spark 3.0, 46% din toate remedierile au fost pentru funcționalitatea SQL, care a îmbunătățit atât performanța, cât și compatibilitatea ANSI.

Acestea fiind spuse, cele mai importante trei caracteristici noi din motorul Spark SQL sunt executarea de interogări adaptive.

Metodele de optimizare Interogările se concentrează în general pe optimizarea statică a interogărilor.

Datorită separării stocării și procesării în Spark, sosirea datelor poate fi imprevizibilă. Din aceste motive, executarea interogării adaptive devine mai importantă pentru Spark decât pentru sistemele tradiționale.

Există multe alte caracteristici pe care le puteți verifica în notele de lansare. Funcții care acoperă surse de date, ecosisteme, monitorizare, depanare și multe altele.

Puteți verifica nota de lansare accesând următorul link.

Fuente: https://spark.apache.org/


Lasă comentariul tău

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *

*

*

  1. Responsabil pentru date: Miguel Ángel Gatón
  2. Scopul datelor: Control SPAM, gestionarea comentariilor.
  3. Legitimare: consimțământul dvs.
  4. Comunicarea datelor: datele nu vor fi comunicate terților decât prin obligație legală.
  5. Stocarea datelor: bază de date găzduită de Occentus Networks (UE)
  6. Drepturi: în orice moment vă puteți limita, recupera și șterge informațiile.