Apache Spark, el framework de análisis de big data se renueva a su versión 3.0

Apache Spark je okvir otvoreno klasno računanje koje pruža sučelje za programiranje klastera u kompletu s Implicitnim paralelizmom podataka i tolerancijom grešaka, koji je baza kodova projekta Spark donirana Apache Software Foundation koja je zadužena za njegovo održavanje.

Apache Spark može se smatrati općenitim, brzinom orijentiranim računalnim sustavom klastera.

Navedite API-je u Javi, Scali, Pythonu i R, plus također nudi optimizirani motor koji podržava izvršavanje grafikona općenito.

također podržava opsežan i bogat set alata visoke razine među kojima znam uključuju Spark SQL (za strukturiranu obradu podataka temeljenu na SQL-u), MLlib za implementaciju strojnog učenja, GraphX za obradu grafova i Spark Streaming.

Spark SQL je modul Apache Spark za rad sa strukturiranim podacima i vrlo je popularan u Spark aplikacijama. Prema Databricksu, tvrtki koju su osnovali tvorci Apache Spark, čak i programeri Python i Scala velik dio svog posla rade sa Spark SQL motorom.

Spark je danas de facto okvir za obradu velikih podataka, znanost o podacima, strojno učenje i analitiku podataka.

O Apache Spark 3.0

Sada okvir je u svojoj verziji 3.0 a među najvažnijim novim značajkama valja napomenuti da Spark 3.0 je dvostruko brži nego prethodna verzija oslanjajući se, između ostalog, na TPC-DS.

Postignuto je ovo povećanje performansi kroz poboljšanja kao što je pokretanje prilagodljivih upita, obrezivanje dinamičkih particija i druge optimizacije. Također je poboljšana usklađenost s ANSI SQL standardom.

Spark 3.0 glavna je verzija s više od 3400 riješenih ulaznica, ali samo unutar glavnih promjena Ograničavaju se na glavne nove značajke za SQL i Python, između ostalog.

Apache Spark 3.0 jača ovu poziciju uvelike poboljšavajući podršku za SQL i Python, dva najčešće korištena jezika s Sparkom danas i pružajući mnoge optimizacije na svim razinama.

PySpark, Spark API za Python, ima više od 5 milijuna preuzimanja mjesečno na PyPI, indeksu Python paketa. Mnogi programeri Pythona API koriste za analizu podataka, iako je ograničen na obradu s jednim čvorom.

Python je, dakle, bio ključno područje razvoja za Spark 3.0. Razvoj API-ja na Apache Spark-u ubrzan je kako bi znanstvenici podataka učinili produktivnijima u radu s velikim podacima u distribuiranim okruženjima.

Koalas eliminira potrebu za stvaranjem mnogih funkcija (npr. grafička podrška) u PySparku, radi boljih performansi u klasteru.

Do sada možemo reći da je Sparkova uloga često ograničena na ulogu ETL-a (Extract Transform Load).

To posebno rezultira značajnim poboljšanjima API-ja, uključujući savjete tipa Python i dodatne UDF-ove pandi (korisnički definirane funkcije).

Spark 3.0 nudi bolje rješavanje Python pogrešaka, a pozivi korisnički definiranih R funkcija su i do 40 puta brži.

Također treba napomenuti da je u Spark 3.0, 46% svih popravaka odnosilo se na SQL funkcionalnost, koji je poboljšao i izvedbu i ANSI kompatibilnost.

To je rekao, tri najvažnije nove značajke u Spark SQL mehanizmu su izvršavanje prilagodljivih upita.

Metode optimizacije Upiti se uglavnom usredotočuju na statičku optimizaciju upita.

Zbog razdvajanja pohrane i obrade u Sparku, dolazak podataka može biti nepredvidljiv. Iz tih razloga, prilagodljivo izvršavanje upita postaje presudnije za Spark nego za tradicionalne sustave.

Postoje mnoge druge značajke koje možete provjeriti u bilješkama o izdanju. Značajke koje pokrivaju izvore podataka, ekosustave, praćenje, uklanjanje pogrešaka i još mnogo toga.

Možete provjeriti napomenu o izdanju odlaskom na sljedeću poveznicu.

izvor: https://spark.apache.org/

Ubunlog

Apache Spark, okvir za analizu velikih podataka obnovljen je na svoju verziju 3.0

O Apache Spark 3.0

Ostavite svoj komentar Otkaži odgovor