Apache Spark, le framework d'analyse Big Data est renouvelé à sa version 3.0

Apache Spark est un framework informatique en cluster open source qui fournit une interface pour la programmation en cluster complète avec le parallélisme de données implicite et la tolérance aux pannes, dont la base de code du projet Spark a été donnée à Apache Software Foundation, qui est responsable de sa maintenance.

Apache Spark peut être considéré comme un système informatique en grappes polyvalent et orienté vitesse.

Fournir des API en Java, Scala, Python et R, plus fournit également un moteur optimisé qui prend en charge l'exécution de graphiques en général.

Aussi prend en charge un ensemble complet et riche d'outils de haut niveau parmi lesquels je sais inclure Spark SQL (pour le traitement de données structurées basé sur SQL), MLlib pour implémenter l'apprentissage automatique, GraphX ​​pour le traitement de graphes et Spark Streaming.

Spark SQL est le module Apache Spark pour travailler avec des données structurées et est très populaire dans les applications Spark. Selon Databricks, la société fondée par les créateurs d'Apache Spark, même les développeurs Python et Scala font une grande partie de leur travail avec le moteur Spark SQL.

Spark est aujourd'hui le cadre de facto pour le traitement du Big Data, la science des données, l'apprentissage automatique et l'analyse de données.

À propos d'Apache Spark 3.0

Maintenant le framework est dans sa version 3.0 et parmi les nouveautés les plus importantes, il convient de noter que Spark 3.0 est deux fois plus rapide que la version précédente en s'appuyant, entre autres, sur TPC-DS.

Cette augmentation des performances a été obtenue grâce à des améliorations comme l'exécution de requêtes adaptatives, élagage des partitions dynamiques et autres optimisations. La conformité à la norme ANSI SQL a également été améliorée.

Spark 3.0 est une version majeure avec plus de 3400 tickets résolus, mais dans le cadre des changements majeurs, uniquement Ils se limitent aux principales nouveautés pour SQL et Python, entre autres.

Apache Spark 3.0 renforce cette position en améliorant considérablement le support de SQL et Python, les deux langages les plus utilisés avec Spark aujourd'hui et en fournissant de nombreuses optimisations à tous les niveaux.

PySpark, l'API Spark pour Python, compte plus de 5 millions de téléchargements mensuels sur PyPI, l'index des packages Python. De nombreux développeurs Python Ils utilisent l'API pour l'analyse des données, bien qu'elle soit limitée au traitement d'un seul nœud.

Python était donc un domaine clé de développement pour Spark 3.0. Le développement d'API sur Apache Spark a été accéléré pour rendre les scientifiques des données plus productifs lorsqu'ils travaillent avec du Big Data dans des environnements distribués.

Koalas élimine le besoin de créer de nombreuses fonctions (par exemple, support graphique) dans PySpark, pour de meilleures performances dans un cluster.

Jusqu'à présent, on peut dire que le rôle de Spark est souvent limité à celui d'un ETL (Extract Transform Load).

Cela se traduit en particulier par des améliorations significatives de l'API, y compris des indices de type Python et des UDF pandas supplémentaires (fonctions définies par l'utilisateur).

Spark 3.0 offre une meilleure gestion des erreurs Python, et les appels aux fonctions R définies par l'utilisateur sont jusqu'à 40 fois plus rapides.

Il convient également de noter que dans Spark 3.0, 46% de tous les correctifs concernaient la fonctionnalité SQL, qui a amélioré les performances et la compatibilité ANSI.

Cela dit, les trois nouvelles fonctionnalités les plus importantes du moteur Spark SQL sont l'exécution de requêtes adaptatives.

Les méthodes d'optimisation Les requêtes se concentrent généralement sur l'optimisation des requêtes statiques.

En raison de la séparation du stockage et du traitement dans Spark, l'arrivée des données peut être imprévisible. Pour ces raisons, l'exécution adaptative des requêtes devient plus cruciale pour Spark que pour les systèmes traditionnels.

Il existe de nombreuses autres fonctionnalités que vous pouvez consulter dans les notes de mise à jour. Fonctionnalités couvrant les sources de données, les écosystèmes, la surveillance, le débogage, etc.

Vous pouvez consulter la note de publication en allant sur le lien suivant.

source: https://spark.apache.org/


Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont marqués avec *

*

*

  1. Responsable des données: Miguel Ángel Gatón
  2. Finalité des données: Contrôle du SPAM, gestion des commentaires.
  3. Légitimation: votre consentement
  4. Communication des données: Les données ne seront pas communiquées à des tiers sauf obligation légale.
  5. Stockage des données: base de données hébergée par Occentus Networks (EU)
  6. Droits: à tout moment, vous pouvez limiter, récupérer et supprimer vos informations.