Apache Spark, el framework d'anàlisi de big data es renova a la seva versió 3.0

Apache Spark és un framework de computació en clúster codi obert que proporciona una interfície per a la programació de clústers complets amb Paral·lelisme de dades implícit i tolerància a fallades, el qual el codi base de el projecte Spark va ser donat a l'Apache Software Foundation que s'encarrega del seu manteniment.

Apache Spark es pot considerar un sistema de computació en clúster de propòsit general i orientat a la velocitat.

proporciona APIs en Java, Scala, Python i R, a més que també proporciona un motor optimitzat que suporta l'execució de grafs en general.

També suporta un conjunt extens i ric d'eines d'alt nivell entre les que es inclouen Spark SQL (Per al processament de dades estructurades basada en SQL), MLlib per implementar machine learning, GraphX ​​per al processament de grafs i Spark Streaming.

Spark SQL és el mòdul Apache Spark per treballar amb dades estructurades i és molt popular a les aplicacions Spark. Segons Databricks, la companyia fundada pels creadors d'Apache Spark, fins i tot els desenvolupadors Python i Scala fan gran part del seu treball amb el motor Spark SQL.

Spark és avui el marc de facto per al processament de big data, ciència de dades, aprenentatge automàtic i anàlisi de dades.

Sobre Apache Spark 3.0

Actualment el framework es troba en el seu version 3.0 i entre les noves característiques més importants, cal tenir en compte que Spark 3.0 és dues vegades més ràpid que la versió anterior a l'confiar en TPC-DS, entre d'altres.

Aquest augment de rendiment es va aconseguir a través de millores com l'execució de consultes adaptatives, La poda de particions dinàmiques i altres optimitzacions. També s'ha millorat el compliment de l'estàndard ANSI SQL.

Spark 3.0 és una versió principal amb més de 3400 tiquets resolts, però dins dels principals canvis, només es limiten a les noves característiques principals per SQL i Python, entre d'altres.

Apatxe Spark 3.0 enforteix aquesta posició a l'millorar considerablement el suport per SQL i Python, els dos llenguatges més utilitzats amb Spark en l'actualitat i a l'brindar moltes optimitzacions en tots els nivells.

PySpark, l'API de Spark per Python, té més de 5 milions de descàrregues mensuals en PyPI, l'índex de l'paquet de Python. Molts desenvolupadors de Python usen l'API per a l'anàlisi de dades, tot i que es limita a el processament d'un sol node.

Python va ser, per tant, una àrea clau de desenvolupament per Spark 3.0. S'ha accelerat el desenvolupament de l'API sobre Apache Spark, perquè els científics de dades siguin més productius quan treballen amb grans dades en entorns distribuïts.

Coales elimina la necessitat de crear moltes funcions (Per exemple, suport de gràfics) en PySpark, per obtenir un millor rendiment en un clúster.

Fins ara, podem dir que Spark seu paper sovint es limita a el d'un ETL (Extract Transform Load).

Això dóna com a resultat en particular millores significatives en les API, incloses suggeriments de tipus Python i UDF de pandes addicionals (funcions definides per l'usuari).

Spark 3.0 ofereix un millor maneig d'errors de Python, i les crides a funcions R definides per l'usuari són fins a 40 vegades més ràpides.

A més cal destacar que en Spark 3.0, el 46% de totes les correccions van ser per a la funcionalitat de SQL, Que ha millorat tant el rendiment com la compatibilitat ANSI.

Dit això, les tres noves característiques més importants en el motor Spark SQL són l'execució de consultes adaptatives.

Els mètodes d'optimització de consultes generalment se centren en l'optimització de consultes estàtiques.

A causa de la separació de l'emmagatzematge i el processament en Spark, l'arribada de dades pot ser impredictible. Per aquestes raons, l'execució de consultes adaptatives es torna més crucial per Spark que per als sistemes tradicionals.

Hi ha moltes altres característiques que pot consultar a les notes de la versió. Característiques que cobreixen fonts de dades, ecosistemes, monitoratge, depuració i més.

Pots consultar la nota de l'llançament dirigint-te a l'el següent enllaç.

font: https://spark.apache.org/


Deixa el teu comentari

La seva adreça de correu electrònic no es publicarà. Els camps obligatoris estan marcats amb *

*

*

  1. Responsable de les dades: Miguel Ángel Gatón
  2. Finalitat de les dades: Controlar l'SPAM, gestió de comentaris.
  3. Legitimació: El teu consentiment
  4. Comunicació de les dades: No es comunicaran les dades a tercers excepte per obligació legal.
  5. Emmagatzematge de les dades: Base de dades allotjada en Occentus Networks (UE)
  6. Drets: En qualsevol moment pots limitar, recuperar i esborrar la teva informació.