Apache Spark, rámec pro analýzu velkých dat je obnoven na verzi 3.0

Apache Spark je framework open source cluster computing který poskytuje rozhraní pro programování klastrů spolu s Implicit Data Parallelism and Fault Tolerance, které byla základna projektu Spark věnována Apache Software Foundation, která má na starosti jeho údržbu.

Apache Spark lze považovat za univerzální, na rychlost orientovaný klastrový výpočetní systém.

Poskytujte API v Javě, Scale, Pythonu a R plus také poskytuje optimalizovaný motor který podporuje provádění grafů obecně.

také podporuje rozsáhlou a bohatou sadu nástrojů na vysoké úrovni mezi kterými vím zahrnout Spark SQL (pro zpracování strukturovaných dat na bázi SQL), MLlib pro implementaci strojového učení, GraphX ​​pro zpracování grafů a Spark Streaming.

Spark SQL je modul Apache Spark pro práci se strukturovanými daty a je velmi populární v aplikacích Spark. Podle Databricks, společnosti založené tvůrci Apache Spark, dokonce i vývojáři Pythonu a Scaly dělají většinu své práce s motorem Spark SQL.

Spark je dnes de facto rámec pro zpracování velkých dat, datovou vědu, strojové učení a analýzu dat.

O Apache Spark 3.0

Nyní rámec je ve své verzi 3.0 a mezi nejdůležitějšími novými funkcemi je třeba poznamenat, že Spark 3.0 je dvakrát rychlejší než předchozí verze spoléháním mimo jiné na TPC-DS.

Tohoto zvýšení výkonu bylo dosaženo prostřednictvím vylepšení například spouštění adaptivních dotazů, prořezávání dynamických oddílů a další optimalizace. Rovněž byla vylepšena shoda se standardem ANSI SQL.

Spark 3.0 je hlavní verze s více než 3400 XNUMX vyřešenými tikety, ale pouze v rámci hlavních změn Omezují se mimo jiné na hlavní nové funkce pro SQL a Python.

Apache Spark 3.0 posiluje tuto pozici výrazným zlepšením podpory pro SQL a Python, dva nejpoužívanější jazyky dnes se Sparkem a poskytující mnoho optimalizací na všech úrovních.

PySpark, Spark API pro Python, má více než 5 milionů stažení měsíčně na PyPI, index balíčku Python. Mnoho vývojářů Pythonu Používají API pro analýzu dat, i když je omezeno na zpracování jednoho uzlu.

Python byl tedy klíčová oblast vývoje pro Spark 3.0. Vývoj API na Apache Spark byl zrychlen, aby byli datoví vědci produktivnější při práci s velkými daty v distribuovaných prostředích.

Koalas eliminuje potřebu vytvářet mnoho funkcí (např. podpora grafiky) v PySpark, pro lepší výkon v klastru.

Zatím můžeme říci, že role Spark je často omezena na roli ETL (Extract Transform Load).

To zejména vede k významným vylepšením API, včetně rad typu Python a dalších pand UDF (uživatelem definované funkce).

Spark 3.0 nabízí lepší zpracování chyb Pythonu, a volání na uživatelem definované funkce R jsou až 40krát rychlejší.

Je také třeba poznamenat, že ve Sparku 3.0 46% všech oprav bylo pro funkčnost SQL, který zlepšil výkon i kompatibilitu s ANSI.

To znamená, třemi nejdůležitějšími novými funkcemi v modulu Spark SQL je provádění adaptivních dotazů.

Optimalizační metody Dotazy se obecně zaměřují na optimalizaci statického dotazu.

Vzhledem k oddělení úložiště a zpracování ve Sparku může být příchod dat nepředvídatelný. Z těchto důvodů se adaptivní provádění dotazů stává pro Spark důležitější než pro tradiční systémy.

Existuje mnoho dalších funkcí, které můžete zkontrolovat v poznámkách k vydání. Funkce pokrývající zdroje dat, ekosystémy, monitorování, ladění a další.

Můžete zkontrolovat poznámku k vydání přechodem na následující odkaz.

zdroj: https://spark.apache.org/


Zanechte svůj komentář

Vaše e-mailová adresa nebude zveřejněna. Povinné položky jsou označeny *

*

*

  1. Odpovědný za údaje: Miguel Ángel Gatón
  2. Účel údajů: Ovládací SPAM, správa komentářů.
  3. Legitimace: Váš souhlas
  4. Sdělování údajů: Údaje nebudou sděleny třetím osobám, s výjimkou zákonných povinností.
  5. Úložiště dat: Databáze hostovaná společností Occentus Networks (EU)
  6. Práva: Vaše údaje můžete kdykoli omezit, obnovit a odstranit.