Apache Spark, il framework di analisi dei big data si rinnova alla sua versione 3.0

Apache Spark è un framework elaborazione in cluster open source che fornisce un'interfaccia per la programmazione del cluster completo di parallelismo implicito dei dati e tolleranza agli errori, che la base di codice del progetto Spark è stata donata alla Apache Software Foundation che è responsabile della sua manutenzione.

Apache Spark può essere considerato un sistema di cluster computing generico e orientato alla velocità.

Fornisci API in Java, Scala, Python e R, più fornisce anche un motore ottimizzato che supporta l'esecuzione di grafici in generale.

anche supporta un ampio e ricco set di strumenti di alto livello tra cui so includere Spark SQL (per l'elaborazione di dati strutturati basata su SQL), MLlib per implementare l'apprendimento automatico, GraphX ​​per l'elaborazione di grafici e Spark Streaming.

Spark SQL è il modulo Apache Spark per lavorare con dati strutturati ed è molto popolare nelle applicazioni Spark. Secondo Databricks, la società fondata dai creatori di Apache Spark, anche gli sviluppatori Python e Scala svolgono gran parte del loro lavoro con il motore Spark SQL.

Spark è oggi il framework de facto per l'elaborazione di big data, scienza dei dati, apprendimento automatico e analisi dei dati.

Informazioni su Apache Spark 3.0

Ora il framework è nella sua versione 3.0 e tra le novità più importanti va segnalata quella Spark 3.0 è due volte più veloce rispetto alla versione precedente affidandosi a TPC-DS, tra gli altri.

Questo aumento delle prestazioni è stato ottenuto attraverso miglioramenti come l'esecuzione di query adattive, potatura di partizioni dinamiche e altre ottimizzazioni. Anche la conformità con lo standard ANSI SQL è stata migliorata.

Spark 3.0 è una versione principale con più di 3400 ticket risolti, ma solo all'interno delle modifiche principali Si limitano alle principali nuove funzionalità per SQL e Python, tra le altre.

Apache Spark 3.0 rafforza questa posizione migliorando notevolmente il supporto per SQL e Python, i due linguaggi più utilizzati con Spark oggi e fornendo molte ottimizzazioni a tutti i livelli.

PySpark, l'API Spark per Python, ha più di 5 milioni di download mensili su PyPI, l'indice dei pacchetti Python. Molti sviluppatori Python Usano l'API per l'analisi dei dati, sebbene sia limitata all'elaborazione di un singolo nodo.

Python era, quindi, un'area chiave di sviluppo per Spark 3.0. Lo sviluppo delle API su Apache Spark è stato accelerato per rendere i data scientist più produttivi quando si lavora con i big data in ambienti distribuiti.

Koala elimina la necessità di creare molte funzioni (es. supporto grafico) in PySpark, per migliori prestazioni in un cluster.

Finora, possiamo dire che il ruolo di Spark è spesso limitato a quello di un ETL (Extract Transform Load).

Ciò si traduce in miglioramenti significativi in ​​particolare alle API, inclusi i suggerimenti sul tipo Python e le UDF panda aggiuntive (funzioni definite dall'utente).

Spark 3.0 offre una migliore gestione degli errori di Python, e le chiamate alle funzioni R definite dall'utente sono fino a 40 volte più veloci.

Va anche notato che in Spark 3.0, Il 46% di tutte le correzioni riguardava la funzionalità SQL, che ha migliorato sia le prestazioni che la compatibilità ANSI.

Detto questo, le tre nuove funzionalità più importanti del motore Spark SQL sono l'esecuzione di query adattive.

I metodi di ottimizzazione Le query generalmente si concentrano sull'ottimizzazione delle query statiche.

A causa della separazione tra archiviazione ed elaborazione in Spark, l'arrivo dei dati può essere imprevedibile. Per questi motivi, l'esecuzione di query adattive diventa più cruciale per Spark rispetto ai sistemi tradizionali.

Ci sono molte altre funzionalità che puoi controllare nelle note di rilascio. Funzionalità che coprono origini dati, ecosistemi, monitoraggio, debug e altro ancora.

Puoi controllare la nota di rilascio andando al seguente collegamento.

fonte: https://spark.apache.org/


Lascia un tuo commento

L'indirizzo email non verrà pubblicato. I campi obbligatori sono contrassegnati con *

*

*

  1. Responsabile dei dati: Miguel Ángel Gatón
  2. Scopo dei dati: controllo SPAM, gestione commenti.
  3. Legittimazione: il tuo consenso
  4. Comunicazione dei dati: I dati non saranno oggetto di comunicazione a terzi se non per obbligo di legge.
  5. Archiviazione dati: database ospitato da Occentus Networks (UE)
  6. Diritti: in qualsiasi momento puoi limitare, recuperare ed eliminare le tue informazioni.