Suurandmete analüüsi raamistik Apache Spark uuendatakse versioonile 3.0

Apache Spark on raamistik avatud lähtekoodiga klastrite arvutus mis annab liidese klastrite programmeerimiseks koos implitsiitsete andmete paralleelsuse ja tõrketaluvusega, mille projekti Spark koodibaas annetati Apache Software Foundationile, kes vastutab selle hooldamise eest.

Apache Spark võib pidada üldotstarbeliseks, kiirusele orienteeritud klastriarvutussüsteemiks.

Pakkuge API-sid Java, Scala, Python ja R pluss pakub ka optimeeritud mootorit mis toetab graafikute täitmist üldiselt.

ka toetab ulatuslikku ja rikkalikku kõrgetasemeliste tööriistade komplekti mille hulgas ma tean lisada Spark SQL (SQL-põhise struktureeritud andmetöötluse jaoks), MLlib masinõppe rakendamiseks, GraphX graafide töötlemiseks ja Spark Streaming.

Spark SQL on moodul Apache Spark struktureeritud andmetega töötamiseks ja on Sparki rakendustes väga populaarne. Apache Sparki loojate asutatud ettevõtte Databricks andmetel teevad isegi Pythoni ja Scala arendajad suure osa oma tööst Spark SQL-i mootoriga.

Spark on täna suurandmete töötlemise, andmeteaduse, masinõppe ja andmeanalüütika de facto raamistik.

Teave Apache Spark 3.0 kohta

Nüüd raamistik on oma versioonis 3.0 ja kõige olulisemate uute funktsioonide hulgas tuleb märkida, et Spark 3.0 on kaks korda kiirem kui eelmine versioon, tuginedes muu hulgas TPC-DS-ile.

See jõudluse kasv saavutati paranduste kaudu näiteks kohanduvate päringute käitamine, dünaamiliste vaheseinte pügamine ja muud optimeerimised. Samuti on paranenud vastavus ANSI SQL standardile.

Spark 3.0 on suurem versioon, kus on üle 3400 lahendatud pileti, kuid ainult peamiste muudatuste raames Nad piirduvad muu hulgas SQL-i ja Pythoni peamiste uute funktsioonidega.

Apache Spark 3.0 tugevdab seda positsiooni, parandades oluliselt SQLi ja Pythoni tuge, kaks kõige enam kasutatavat keelt Sparkiga, mis pakuvad tänapäeval palju optimeerimisi.

Pythoni Sparki API-l PySpark on PyPI-s, Pythoni paketiindeksis, igakuiselt alla laaditud üle 5 miljoni. Paljud Pythoni arendajad Nad kasutavad API-d andmete analüüsimiseks, ehkki see piirdub ühe sõlme töötlemisega.

Seetõttu oli Python Spark 3.0 peamine arendusvaldkond. Apache Sparki API arendamist on kiirendatud, et muuta andmeteadlased produktiivsemaks suurandmetega töötades hajutatud keskkondades.

Koalas välistab paljude funktsioonide loomise vajaduse (nt graafika tugi) PySparkis parema jõudluse saavutamiseks klastris.

Siiani võime öelda, et Sparki roll piirdub sageli ETL-iga (Extract Transform Load).

Selle tulemuseks on API-de eriti oluline parandamine, sealhulgas Pythoni tüüpi vihjed ja täiendavad pandade UDF-id (kasutaja määratletud funktsioonid).

Spark 3.0 pakub paremat Pythoni veakäsitlust, ja kõned kasutaja määratud R-funktsioonidele on kuni 40 korda kiiremad.

Samuti tuleb märkida, et Spark 3.0-s on 46% kõikidest parandustest olid seotud SQL funktsionaalsusega, mis on parandanud nii jõudlust kui ka ANSI-ühilduvust.

See ütles Spark SQL-i mootori kolm kõige olulisemat uut funktsiooni on adaptiivsete päringute täitmine.

Optimeerimismeetodid Päringud keskenduvad üldjuhul staatilisele päringu optimeerimisele.

Sparkis ladustamise ja töötlemise eraldamise tõttu võib andmete saabumine olla ettearvamatu. Nendel põhjustel muutub adaptiivne päringu täitmine Sparki jaoks üliolulisemaks kui traditsiooniliste süsteemide jaoks.

Väljalaskemärkmetes on palju muid funktsioone. Funktsioonid, mis hõlmavad andmeallikaid, ökosüsteeme, seiret, silumist ja muud.

Saate kontrollida vabastamisteavet järgmisele lingile minnes.

allikas: https://spark.apache.org/

Ubunlog

Apache Spark, suurandmete analüüsi raamistik on uuendatud versioonile 3.0

Teave Apache Spark 3.0 kohta

Jäta oma kommentaar Tühista vastus