Az Apache Spark, a nagy adatelemzési keretrendszer megújult a 3.0 verzióra

Az Apache Spark egy keret nyílt forráskódú fürt számítás amely interfészt biztosít a klaszter programozáshoz implicit adatok párhuzamossággal és hibatűréssel kiegészítve, amelyet a Spark projekt kódbázisa az Apache Software Foundation-nek ajánlott fel, amely felelős annak karbantartásáért.

Apache Spark általános célú, sebességorientált klaszter számítási rendszernek tekinthető.

Adjon meg API-kat Java, Scala, Python és R, plusz optimalizált motort is biztosít amely általában támogatja a grafikonok végrehajtását.

is széles körű és gazdag magas szintű eszközöket támogat amelyek között tudom tartalmazza Spark SQL-t (SQL-alapú strukturált adatfeldolgozáshoz), MLlib a gépi tanulás megvalósításához, GraphX ​​grafikonfeldolgozáshoz és Spark Streaming.

A Spark SQL a modul Apache Spark strukturált adatokkal való munkához, és nagyon népszerű a Spark alkalmazásokban. A Databricks, az Apache Spark készítői által alapított vállalat szerint még a Python és a Scala fejlesztői is sok munkát végeznek a Spark SQL motorral.

A Spark ma a nagy adatfeldolgozás, az adattudomány, a gépi tanulás és az adatelemzés tényleges kerete.

Az Apache Spark 3.0-ról

Most a keretrendszer a 3.0 verziójában van és a legfontosabb újdonságok között meg kell jegyezni, hogy A Spark 3.0 kétszer olyan gyors mint az előző verzió, többek között a TPC-DS-re támaszkodva.

Ezt a teljesítménynövekedést sikerült elérni fejlesztések révén például adaptív lekérdezések futtatása, a dinamikus partíciók metszése és egyéb optimalizációk. Javult az ANSI SQL szabványnak való megfelelés is.

A Spark 3.0 egy nagyobb verzió, több mint 3400 megoldott jeggyel, de csak a fő változásokon belül Többek között az SQL és a Python fő új szolgáltatásaira korlátozódnak.

Apache Spark 3.0 erősíti ezt a pozíciót az SQL és a Python támogatásának jelentős javításával, a két leggyakrabban használt nyelv a Spark-szal és számos optimalizációval minden szinten.

A PySpark, a Python Spark API-ja havonta több mint 5 millió letöltést tartalmaz a PyPI-re, a Python csomagindexre. Sok Python fejlesztő Az API-t használják az adatok elemzéséhez, bár ez csak az egy csomópontos feldolgozásra korlátozódik.

A Python tehát a Spark 3.0 fejlesztésének kulcsfontosságú területe. Az Apache Spark API-fejlesztését felgyorsították, hogy az adatkutatók produktívabbak legyenek, amikor elosztott környezetekben nagy adatokkal dolgoznak.

A Koalas kiküszöböli számos funkció létrehozásának szükségességét (pl. grafikus támogatás) a PySparkban, a jobb teljesítmény érdekében egy fürtben.

Eddig azt mondhatjuk, hogy Spark szerepe gyakran az ETL (Extract Transform Load) szerepére korlátozódik.

Ez különösen jelentős API fejlesztéseket eredményez, beleértve a Python típusú tippeket és további pandás UDF-eket (felhasználó által definiált funkciók).

A Spark 3.0 jobb Python hibakezelést kínál, és a felhasználó által definiált R funkciókhoz történő hívások akár 40-szer gyorsabbak.

Azt is meg kell jegyezni, hogy a Spark 3.0-ban Az összes javítás 46% -a az SQL funkcionalitására vonatkozott, amely javította mind a teljesítményt, mind az ANSI kompatibilitást.

Ez azt mondta, a Spark SQL motor három legfontosabb új funkciója az adaptív lekérdezések végrehajtása.

Az optimalizálási módszerek A lekérdezések általában a statikus lekérdezések optimalizálására összpontosítanak.

A Sparkban történő tárolás és feldolgozás szétválasztása miatt az adatok érkezése kiszámíthatatlan lehet. Ezen okok miatt az adaptív lekérdezés végrehajtása egyre fontosabbá válik a Spark számára, mint a hagyományos rendszerek esetében.

Számos egyéb funkció is megtalálható a kiadási megjegyzésekben. Az adatforrásokra, az ökoszisztémákra, a megfigyelésre, a hibakeresésre és egyebekre kiterjedő szolgáltatások.

Ellenőrizheti a kiadási megjegyzést a következő linkre kattintva.

forrás: https://spark.apache.org/


A cikk tartalma betartja a szerkesztői etika. A hiba bejelentéséhez kattintson a gombra itt.

Legyen Ön az első hozzászóló

Hagyja megjegyzését

E-mail címed nem kerül nyilvánosságra. Kötelező mezők vannak jelölve *

*

*

  1. Az adatokért felelős: Miguel Ángel Gatón
  2. Az adatok célja: A SPAM ellenőrzése, a megjegyzések kezelése.
  3. Legitimáció: Az Ön beleegyezése
  4. Az adatok közlése: Az adatokat csak jogi kötelezettség alapján továbbítjuk harmadik felekkel.
  5. Adattárolás: Az Occentus Networks (EU) által üzemeltetett adatbázis
  6. Jogok: Bármikor korlátozhatja, helyreállíthatja és törölheti adatait.