Apache Spark, okvir za analizu velikih podataka, obnovljen je na verziju 3.0

Apache Spark je okvir računarstvo klastera otvorenog koda koji pruža sučelje za programiranje klastera zajedno s Implicitnim paralelizmom podataka i tolerancijom grešaka, koji je baza kodova projekta Spark donirana Apache Software Foundation koja je zadužena za njegovo održavanje.

Apache Spark može se smatrati klaster računarskim sistemom opće namjene, usmjerenim na brzinu.

Navedite API-je u Javi, Scali, Pythonu i R, plus takođe nudi optimizovan motor koji podržava izvršavanje grafova općenito.

Takođe podržava širok i bogat set alata na visokom nivou među kojima znam uključuju Spark SQL (za strukturiranu obradu podataka zasnovanu na SQL-u), MLlib za implementaciju mašinskog učenja, GraphX za obradu grafova i Spark Streaming.

Spark SQL je modul Apache Spark za rad sa strukturiranim podacima i vrlo je popularan u Spark aplikacijama. Prema Databricks-u, kompaniji koju su osnovali tvorci Apache Spark-a, čak i programeri Python i Scala rade velik dio svog posla sa Spark SQL motorom.

Spark je danas de facto okvir za obradu velikih podataka, nauku podataka, mašinsko učenje i analitiku podataka.

O Apache Spark 3.0

Trenutno okvir je u svojoj verziji 3.0 a među najvažnijim novim značajkama treba napomenuti da Spark 3.0 je dvostruko brži nego prethodna verzija oslanjajući se, između ostalog, na TPC-DS.

Ostvareno je ovo povećanje performansi kroz poboljšanja poput izvođenja adaptivnih upita, obrezivanje dinamičkih particija i druge optimizacije. Također je poboljšana usklađenost sa ANSI SQL standardom.

Spark 3.0 je glavna verzija s više od 3400 riješenih ulaznica, ali samo unutar glavnih promjena Oni se, između ostalih, ograničavaju na glavne nove funkcije za SQL i Python.

Apache Spark 3.0 jača ovu poziciju znatnim poboljšanjem podrške za SQL i Python, dva najčešće korištena jezika sa Sparkom danas i pružajući mnoge optimizacije na svim nivoima.

PySpark, Spark API za Python, ima više od 5 miliona preuzimanja mjesečno na PyPI, indeksu Python paketa. Mnogi programeri Pythona Oni koriste API za analizu podataka, iako je ograničen na obradu jednog čvora.

Python je, dakle, bio ključno područje razvoja za Spark 3.0. Razvoj API-ja na Apache Spark-u ubrzan je kako bi naučnici podataka bili produktivniji u radu s velikim podacima u distribuiranim okruženjima.

Koalas eliminira potrebu za stvaranjem mnogih funkcija (npr. grafička podrška) u PySparku, radi boljih performansi u klasteru.

Do sada možemo reći da je Sparkova uloga često ograničena na ulogu ETL-a (Extract Transform Load).

To posebno rezultira značajnim poboljšanjima API-ja, uključujući nagovještaje tipa Python i dodatne UDF-ove pandi (korisnički definirane funkcije).

Spark 3.0 nudi bolje upravljanje Python greškama, a pozivi korisnički definiranih R funkcija su i do 40 puta brži.

Takođe treba napomenuti da je u Spark 3.0, 46% svih popravaka odnosilo se na SQL funkcionalnost, koji je poboljšao i performanse i ANSI kompatibilnost.

To je rekao, tri najvažnije nove značajke u Spark SQL mehanizmu su izvršavanje adaptivnih upita.

Metode optimizacije Upiti se uglavnom fokusiraju na statičku optimizaciju upita.

Zbog razdvajanja pohrane i obrade u Sparku, dolazak podataka može biti nepredvidljiv. Iz tih razloga, prilagodljivo izvršavanje upita postaje presudnije za Spark nego za tradicionalne sisteme.

Postoje mnoge druge funkcije koje možete provjeriti u napomenama o izdanju. Značajke koje pokrivaju izvore podataka, ekosustave, praćenje, uklanjanje grešaka i još mnogo toga.

Možete provjeriti napomenu o izdanju odlaskom na sljedeći link.

Izvor: https://spark.apache.org/

Ubunlog

Apache Spark, okvir za analizu velikih podataka obnovljen je na verziju 3.0

O Apache Spark 3.0

Ostavite komentar Otkaži odgovor