Az Apache Spark egy keret nyílt forráskódú fürt számítás amely interfészt biztosít a klaszter programozáshoz implicit adatok párhuzamossággal és hibatűréssel kiegészítve, amelyet a Spark projekt kódbázisa az Apache Software Foundation-nek ajánlott fel, amely felelős annak karbantartásáért.
Apache Spark általános célú, sebességorientált klaszter számítási rendszernek tekinthető.
Adjon meg API-kat Java, Scala, Python és R, plusz optimalizált motort is biztosít amely általában támogatja a grafikonok végrehajtását.
is széles körű és gazdag magas szintű eszközöket támogat amelyek között tudom tartalmazza Spark SQL-t (SQL-alapú strukturált adatfeldolgozáshoz), MLlib a gépi tanulás megvalósításához, GraphX grafikonfeldolgozáshoz és Spark Streaming.
A Spark SQL a modul Apache Spark strukturált adatokkal való munkához, és nagyon népszerű a Spark alkalmazásokban. A Databricks, az Apache Spark készítői által alapított vállalat szerint még a Python és a Scala fejlesztői is sok munkát végeznek a Spark SQL motorral.
A Spark ma a nagy adatfeldolgozás, az adattudomány, a gépi tanulás és az adatelemzés tényleges kerete.
Az Apache Spark 3.0-ról
Most a keretrendszer a 3.0 verziójában van és a legfontosabb újdonságok között meg kell jegyezni, hogy A Spark 3.0 kétszer olyan gyors mint az előző verzió, többek között a TPC-DS-re támaszkodva.
Ezt a teljesítménynövekedést sikerült elérni fejlesztések révén például adaptív lekérdezések futtatása, a dinamikus partíciók metszése és egyéb optimalizációk. Javult az ANSI SQL szabványnak való megfelelés is.
A Spark 3.0 egy nagyobb verzió, több mint 3400 megoldott jeggyel, de csak a fő változásokon belül Többek között az SQL és a Python fő új szolgáltatásaira korlátozódnak.
Apache Spark 3.0 erősíti ezt a pozíciót az SQL és a Python támogatásának jelentős javításával, a két leggyakrabban használt nyelv a Spark-szal és számos optimalizációval minden szinten.
A PySpark, a Python Spark API-ja havonta több mint 5 millió letöltést tartalmaz a PyPI-re, a Python csomagindexre. Sok Python fejlesztő Az API-t használják az adatok elemzéséhez, bár ez csak az egy csomópontos feldolgozásra korlátozódik.
A Python tehát a Spark 3.0 fejlesztésének kulcsfontosságú területe. Az Apache Spark API-fejlesztését felgyorsították, hogy az adatkutatók produktívabbak legyenek, amikor elosztott környezetekben nagy adatokkal dolgoznak.
A Koalas kiküszöböli számos funkció létrehozásának szükségességét (pl. grafikus támogatás) a PySparkban, a jobb teljesítmény érdekében egy fürtben.
Eddig azt mondhatjuk, hogy Spark szerepe gyakran az ETL (Extract Transform Load) szerepére korlátozódik.
Ez különösen jelentős API fejlesztéseket eredményez, beleértve a Python típusú tippeket és további pandás UDF-eket (felhasználó által definiált funkciók).
A Spark 3.0 jobb Python hibakezelést kínál, és a felhasználó által definiált R funkciókhoz történő hívások akár 40-szer gyorsabbak.
Azt is meg kell jegyezni, hogy a Spark 3.0-ban Az összes javítás 46% -a az SQL funkcionalitására vonatkozott, amely javította mind a teljesítményt, mind az ANSI kompatibilitást.
Ez azt mondta, a Spark SQL motor három legfontosabb új funkciója az adaptív lekérdezések végrehajtása.
Az optimalizálási módszerek A lekérdezések általában a statikus lekérdezések optimalizálására összpontosítanak.
A Sparkban történő tárolás és feldolgozás szétválasztása miatt az adatok érkezése kiszámíthatatlan lehet. Ezen okok miatt az adaptív lekérdezés végrehajtása egyre fontosabbá válik a Spark számára, mint a hagyományos rendszerek esetében.
Számos egyéb funkció is megtalálható a kiadási megjegyzésekben. Az adatforrásokra, az ökoszisztémákra, a megfigyelésre, a hibakeresésre és egyebekre kiterjedő szolgáltatások.
Ellenőrizheti a kiadási megjegyzést a következő linkre kattintva.
forrás: https://spark.apache.org/