Apache Spark, ogrodje za analizo velikih podatkov, je posodobljeno na različico 3.0

Apache Spark je ogrodje odprtokodno računanje grozdov ki ponuja vmesnik za programiranje grozdov skupaj z implicitnim paralelnostjo podatkov in toleranco napak, ki ga je projektna baza Spark podarila fundaciji Apache Software Foundation, ki je odgovorna za njegovo vzdrževanje.

Apache Spark lahko štejemo za splošni, hitro usmerjen računalniški sistem grozdov.

Navedite API-je v Java, Scala, Python in R, plus ponuja tudi optimiziran motor ki podpira izvajanje grafikonov na splošno.

prav tako podpira obsežen in bogat nabor orodij na visoki ravni med katerimi vem vključujejo Spark SQL (za strukturirano obdelavo podatkov na osnovi SQL), MLlib za izvajanje strojnega učenja, GraphX za obdelavo grafov in Spark Streaming.

Spark SQL je modul Apache Spark za delo s strukturiranimi podatki in je zelo priljubljen v aplikacijah Spark. Po podatkih podjetja Databricks, ki so ga ustanovili ustvarjalci Apache Spark, celo razvijalci Python in Scala veliko dela opravijo z motorjem Spark SQL.

Spark je danes dejanski okvir za obdelavo velikih podatkov, znanost o podatkih, strojno učenje in analitiko podatkov.

O Apache Spark 3.0

Zdaj okvir je v svoji različici 3.0 in med najpomembnejšimi novostmi je treba omeniti, da Spark 3.0 je dvakrat hitrejši kot prejšnja različica, med drugim se zanašajo na TPC-DS.

To povečanje učinkovitosti je bilo doseženo z izboljšavami na primer izvajanje prilagodljivih poizvedb, obrezovanje dinamičnih particij in druge optimizacije. Izboljšana je tudi skladnost s standardom ANSI SQL.

Spark 3.0 je glavna različica z razrešenimi več kot 3400 vstopnicami, vendar le pri večjih spremembah Med drugim se omejijo na glavne nove funkcije za SQL in Python.

Apache Spark 3.0 krepi ta položaj z močno izboljšanjem podpore za SQL in Python, dva najpogosteje uporabljena jezika s tehnologijo Spark danes in z zagotavljanjem številnih optimizacij na vseh ravneh.

PySpark, API Spark za Python, ima več kot 5 milijonov prenosov mesečno na PyPI, indeks paketov Python. Mnogi razvijalci Pythona API uporabljajo za analizo podatkov, čeprav je omejen na obdelavo z enim vozliščem.

Python je bil torej ključno področje razvoja za Spark 3.0. Razvoj API-jev na Apache Spark je bil pospešen, da bi znanstveniki podatkov postali bolj produktivni pri delu z velikimi podatki v porazdeljenih okoljih.

Koalas odpravlja potrebo po ustvarjanju številnih funkcij (npr. grafična podpora) v PySparku za boljše delovanje v gruči.

Zaenkrat lahko rečemo, da je Sparkova vloga pogosto omejena na vlogo ETL (Extract Transform Load).

To zlasti vodi do pomembnih izboljšav API-ja, vključno z namigi tipa Python in dodatnimi UDF-ji pand (uporabniško določene funkcije).

Spark 3.0 ponuja boljše obvladovanje napak Python, in klici uporabniško določenih funkcij R so do 40-krat hitrejši.

Prav tako je treba opozoriti, da v Spark 3.0, 46% vseh popravkov je bilo za funkcionalnost SQL, ki je izboljšal zmogljivost in združljivost z ANSI.

To je rekel, tri najpomembnejše novosti v motorju Spark SQL so izvajanje prilagodljivih poizvedb.

Metode optimizacije Poizvedbe se na splošno osredotočajo na statično optimizacijo poizvedb.

Zaradi ločevanja shranjevanja in obdelave v Sparku je prihod podatkov lahko nepredvidljiv. Iz tega razloga je prilagodljivo izvajanje poizvedb za Spark bolj pomembno kot za tradicionalne sisteme.

Obstaja veliko drugih funkcij, ki si jih lahko ogledate v opombah ob izdaji. Funkcije, ki zajemajo vire podatkov, ekosisteme, spremljanje, odpravljanje napak in še več.

Preverite opombo ob izdaji tako, da odprete naslednjo povezavo.

vir: https://spark.apache.org/

Ubunlog

Apache Spark, okvir za analizo velikih podatkov je prenovljen na različico 3.0

O Apache Spark 3.0

Pustite svoj komentar Prekliči odgovor