Το Apache Spark, το μεγάλο πλαίσιο ανάλυσης δεδομένων ανανεώνεται στην έκδοση 3.0

Το Apache Spark είναι ένα πλαίσιο υπολογιστής συμπλέγματος ανοιχτού κώδικα που παρέχει μια διεπαφή για προγραμματισμό συμπλέγματος πλήρης με τον έμμεσο παραλληλισμό δεδομένων και την ανοχή σφαλμάτων, την οποία η βάση κώδικα του έργου Spark δώρισε στο Apache Software Foundation το οποίο είναι υπεύθυνο για τη συντήρησή του.

Apache Spark μπορεί να θεωρηθεί σύστημα υπολογιστικών συμπλέξεων γενικής χρήσης, προσανατολισμένο στην ταχύτητα.

Παρέχετε API σε Java, Scala, Python και R, plus παρέχει επίσης μια βελτιστοποιημένη μηχανή που υποστηρίζει την εκτέλεση γραφημάτων γενικά.

επίσης υποστηρίζει ένα εκτεταμένο και πλούσιο σύνολο εργαλείων υψηλού επιπέδου μεταξύ των οποίων ξέρω περιλαμβάνουν το Spark SQL (για επεξεργασία δομημένων δεδομένων που βασίζεται σε SQL), MLlib για την εφαρμογή μηχανικής εκμάθησης, GraphX ​​για επεξεργασία γραφημάτων και Spark Streaming.

Το Spark SQL είναι η ενότητα Apache Spark για εργασία με δομημένα δεδομένα και είναι πολύ δημοφιλές σε εφαρμογές Spark. Σύμφωνα με την Databricks, η εταιρεία που ιδρύθηκε από τους δημιουργούς του Apache Spark, ακόμη και οι προγραμματιστές Python και Scala κάνουν μεγάλο μέρος της δουλειάς τους με τον κινητήρα Spark SQL.

Το Spark είναι σήμερα το de facto πλαίσιο για τη μεγάλη επεξεργασία δεδομένων, την επιστήμη δεδομένων, τη μηχανική μάθηση και την ανάλυση δεδομένων.

Σχετικά με το Apache Spark 3.0

Τώρα το πλαίσιο είναι στην έκδοση 3.0 και μεταξύ των πιο σημαντικών νέων χαρακτηριστικών, πρέπει να σημειωθεί ότι Το Spark 3.0 είναι διπλάσιο από την προηγούμενη έκδοση, βασισμένος στο TPC-DS, μεταξύ άλλων.

Αυτή η αύξηση επιδόσεων επιτεύχθηκε μέσω βελτιώσεων όπως η εκτέλεση προσαρμοστικών ερωτημάτων, κλάδεμα δυναμικών κατατμήσεων και άλλων βελτιστοποιήσεων. Η συμμόρφωση με το πρότυπο ANSI SQL έχει επίσης βελτιωθεί.

Το Spark 3.0 είναι μια σημαντική έκδοση με περισσότερα από 3400 εισιτήρια που έχουν επιλυθεί, αλλά μέσα στις κύριες αλλαγές, μόνο Περιορίζονται στα κύρια νέα χαρακτηριστικά για SQL και Python, μεταξύ άλλων.

Apache Spark 3.0 ενισχύει αυτήν τη θέση βελτιώνοντας σημαντικά την υποστήριξη για SQL και Python, τις δύο πιο διαδεδομένες γλώσσες με το Spark σήμερα και παρέχουν πολλές βελτιστοποιήσεις σε όλα τα επίπεδα.

Το PySpark, το API Spark για Python, έχει περισσότερες από 5 εκατομμύρια μηνιαίες λήψεις στο PyPI, το ευρετήριο πακέτων Python. Πολλοί προγραμματιστές Python Χρησιμοποιούν το API για ανάλυση δεδομένων, αν και περιορίζεται στην επεξεργασία ενός κόμβου.

Επομένως, η Python βασικός τομέας ανάπτυξης για το Spark 3.0. Η ανάπτυξη API στο Apache Spark έχει επιταχυνθεί για να κάνει τους επιστήμονες δεδομένων πιο παραγωγικούς όταν εργάζονται με μεγάλα δεδομένα σε κατανεμημένα περιβάλλοντα.

Το Koalas εξαλείφει την ανάγκη δημιουργίας πολλών λειτουργιών (π.χ. υποστήριξη γραφικών) στο PySpark, για καλύτερη απόδοση σε ένα σύμπλεγμα.

Μέχρι στιγμής, μπορούμε να πούμε ότι ο ρόλος του Spark περιορίζεται συχνά σε αυτόν του ETL (Extract Transform Load).

Αυτό οδηγεί συγκεκριμένα σε σημαντικές βελτιώσεις API, συμπεριλαμβανομένων συμβουλών τύπου Python και πρόσθετων UDF pandas (λειτουργίες καθορισμένες από το χρήστη).

Το Spark 3.0 προσφέρει καλύτερο χειρισμό σφαλμάτων Python, και οι κλήσεις προς λειτουργίες R που καθορίζονται από τον χρήστη είναι έως και 40 φορές πιο γρήγορες.

Πρέπει επίσης να σημειωθεί ότι στο Spark 3.0, Το 46% όλων των επιδιορθώσεων αφορούσαν τη λειτουργικότητα SQL, η οποία βελτίωσε την απόδοση και τη συμβατότητα ANSI.

Ωστόσο, τα τρία πιο σημαντικά νέα χαρακτηριστικά του κινητήρα Spark SQL είναι η εκτέλεση προσαρμοστικών ερωτημάτων.

Οι μέθοδοι βελτιστοποίησης Τα ερωτήματα επικεντρώνονται γενικά στη βελτιστοποίηση στατικών ερωτημάτων.

Λόγω του διαχωρισμού αποθήκευσης και επεξεργασίας στο Spark, η άφιξη των δεδομένων μπορεί να είναι απρόβλεπτη. Για αυτούς τους λόγους, η προσαρμοστική εκτέλεση ερωτημάτων γίνεται πιο σημαντική για το Spark από ό, τι για τα παραδοσιακά συστήματα.

Υπάρχουν πολλές άλλες δυνατότητες που μπορείτε να δείτε στις σημειώσεις έκδοσης. Λειτουργίες που καλύπτουν πηγές δεδομένων, οικοσυστήματα, παρακολούθηση, εντοπισμό σφαλμάτων και άλλα.

Μπορείτε να ελέγξετε τη σημείωση έκδοσης μεταβαίνοντας στον παρακάτω σύνδεσμο.

πηγή: https://spark.apache.org/


Αφήστε το σχόλιό σας

Η διεύθυνση email σας δεν θα δημοσιευθεί. Τα υποχρεωτικά πεδία σημειώνονται με *

*

*

  1. Υπεύθυνος για τα δεδομένα: Miguel Ángel Gatón
  2. Σκοπός των δεδομένων: Έλεγχος SPAM, διαχείριση σχολίων.
  3. Νομιμοποίηση: Η συγκατάθεσή σας
  4. Κοινοποίηση των δεδομένων: Τα δεδομένα δεν θα κοινοποιούνται σε τρίτους, εκτός από νομική υποχρέωση.
  5. Αποθήκευση δεδομένων: Βάση δεδομένων που φιλοξενείται από τα δίκτυα Occentus (ΕΕ)
  6. Δικαιώματα: Ανά πάσα στιγμή μπορείτε να περιορίσετε, να ανακτήσετε και να διαγράψετε τις πληροφορίες σας.