Apache Spark, rámec analýzy veľkých dát, je obnovený na verziu 3.0

Apache Spark je rámec otvorený zdrojový klastrový výpočet ktorá poskytuje rozhranie pre programovanie klastrov spolu s implicitným dátovým paralelizmom a toleranciou chýb, ktoré základná tabuľa projektu Spark bola venovaná nadácii Apache Software Foundation zodpovednej za jej údržbu.

Apache Spark možno považovať za univerzálny klastrový výpočtový systém zameraný na rýchlosť.

Poskytujte API v jazykoch Java, Scala, Python a R plus tiež poskytuje optimalizovaný motor ktorý podporuje vykonávanie grafov všeobecne.

tiež podporuje rozsiahlu a bohatú sadu nástrojov na vysokej úrovni medzi ktorými viem zahrnúť Spark SQL (pre spracovanie štruktúrovaných údajov na báze SQL), MLlib na implementáciu strojového učenia, GraphX na spracovanie grafov a Spark Streaming.

Modul je Spark SQL Apache Spark pre prácu so štruktúrovanými dátami a je veľmi obľúbený v aplikáciách Spark. Podľa Databricks, spoločnosti založenej tvorcami Apache Spark, dokonca aj vývojári Pythonu a Scaly vykonávajú veľkú časť svojej práce s motorom Spark SQL.

Spark je dnes de facto rámec pre spracovanie veľkých dát, dátovú vedu, strojové učenie a analýzu dát.

O aplikácii Apache Spark 3.0

Teraz rámec je vo svojej verzii 3.0 a medzi najdôležitejšie nové funkcie je potrebné poznamenať, že Spark 3.0 je dvakrát rýchlejší než predchádzajúca verzia spoliehaním sa okrem iného na TPC-DS.

Tento nárast výkonu sa dosiahol prostredníctvom vylepšení napríklad spúšťanie adaptívnych dotazov, prerezávanie dynamických oddielov a ďalšie optimalizácie. Zlepšila sa tiež zhoda so štandardom ANSI SQL.

Spark 3.0 je hlavná verzia s viac ako 3400 XNUMX vyriešenými lístkami, ale iba v rámci hlavných zmien Obmedzujú sa okrem iných na hlavné nové funkcie pre SQL a Python.

Apache Spark 3.0 posilňuje túto pozíciu výrazným zlepšením podpory pre SQL a Python, dva najpoužívanejšie jazyky so Sparkom dnes a poskytujú mnoho optimalizácií na všetkých úrovniach.

PySpark, Spark API pre Python, má viac ako 5 miliónov stiahnutí mesačne na PyPI, index balíka Python. Mnoho vývojárov Pythonu Na analýzu údajov používajú API, aj keď je obmedzené na spracovanie jedným uzlom.

Python bol teda kľúčová oblasť vývoja pre Spark 3.0. Vývoj rozhrania API na serveri Apache Spark sa zrýchlil, aby sa produktivita vedcov v oblasti dát stala produktívnejšou pri práci s veľkými údajmi v distribuovaných prostrediach.

Koalas eliminuje potrebu vytvárať veľa funkcií (napr. podpora grafiky) v PySpark, pre lepší výkon v klastri.

Zatiaľ môžeme povedať, že úloha Sparka je často obmedzená na úlohu ETL (Extract Transform Load).

To vedie najmä k významným vylepšeniam rozhrania API, vrátane rád typu Python a ďalších pand UDF (užívateľom definované funkcie).

Spark 3.0 ponúka lepšie spracovanie chýb v Pythone, a volania na funkcie definované používateľom R sú až 40-krát rýchlejšie.

Je tiež potrebné poznamenať, že v Spark 3.0 46% všetkých opráv bolo pre funkčnosť SQL, ktorá zlepšila výkon aj kompatibilitu s ANSI.

To znamená, tri najdôležitejšie nové funkcie v jadre Spark SQL sú vykonávanie adaptívnych dotazov.

Optimalizačné metódy Dotazy sa všeobecne zameriavajú na optimalizáciu statických dotazov.

Vďaka oddeleniu úložiska a spracovania v aplikácii Spark môže byť príchod údajov nepredvídateľný. Z týchto dôvodov sa adaptívne vykonávanie dotazov stáva pre Spark dôležitejším ako pre tradičné systémy.

Existuje mnoho ďalších funkcií, ktoré si môžete pozrieť v poznámkach k vydaniu. Funkcie týkajúce sa zdrojov údajov, ekosystémov, monitorovania, ladenia a ďalších.

Môžete si pozrieť poznámku k vydaniu prechodom na nasledujúci odkaz.

Fuente: https://spark.apache.org/

Ubunlog

Apache Spark, rámec pre analýzu veľkých dát, bol obnovený na svoju verziu 3.0

O aplikácii Apache Spark 3.0

Zanechajte svoj komentár Zrušiť odpoveď