Apache Spark, didelių duomenų analizės sistema, atnaujinta iki 3.0

„Apache Spark“ yra sistema atvirojo kodo klasterių skaičiavimas kuri suteikia sąsają klasterių programavimui kartu su numanomu duomenų lygiagretumu ir gedimų tolerancija, kuriuos „Spark“ projekto kodų bazė padovanojo „Apache Software Foundation“, kuris yra atsakingas už jos priežiūrą.

Apache Spark galima laikyti bendros paskirties, į greitį orientuota klasterių skaičiavimo sistema.

Pateikite API „Java“, „Scala“, „Python“ ir „R“ plius taip pat pateikia optimizuotą variklį kuris palaiko grafikų vykdymą apskritai.

taip pat palaiko platų ir turtingą aukšto lygio įrankių rinkinį tarp kurių aš žinau įtraukti „Spark SQL“ (SQL struktūrizuotam duomenų apdorojimui), „MLlib“, kad būtų įdiegtas mašininis mokymasis, „GraphX“ - grafikų apdorojimui ir „Spark Streaming“.

„Spark SQL“ yra modulis Apache Spark skirtas dirbti su struktūriniais duomenimis ir yra labai populiarus „Spark“ programose. Pasak „Apache Spark“ kūrėjų įkurtos bendrovės „Databricks“, net „Python“ ir „Scala“ kūrėjai daug dirba su „Spark“ SQL varikliu.

„Spark“ šiandien yra de facto didžiųjų duomenų apdorojimo, duomenų mokslo, mašininio mokymosi ir duomenų analizės sistema.

Apie „Apache Spark 3.0“

Dabar sistema yra 3.0 versijos ir tarp svarbiausių naujų funkcijų reikėtų pažymėti, kad „Spark 3.0“ yra dvigubai greitesnis nei ankstesnė versija, be kita ko, pasikliaujant TPC-DS.

Šis našumas buvo pasiektas tobulinant pavyzdžiui, vykdyti adaptyvias užklausas, dinaminių pertvarų genėjimas ir kitos optimizacijos. Taip pat patobulinta atitiktis ANSI SQL standartui.

„Spark 3.0“ yra pagrindinė versija, kurioje išspręsta daugiau nei 3400 bilietų, tačiau tik atsižvelgiant į pagrindinius pakeitimus Jie apsiriboja pagrindinėmis naujomis SQL ir Python funkcijomis, be kita ko.

„Apache Spark 3.0“ sustiprina šią poziciją, labai pagerindamas palaikymą SQL ir Python, dvi plačiausiai vartojamos kalbos su „Spark“ šiandien ir pateikiant daug optimizavimo visais lygiais.

„PySpark“, „Python“ „Spark“ API, daugiau nei 5 milijonai mėnesinių atsisiuntimų iš „PyPI“, „Python“ paketų indekso, yra. Daugelis „Python“ kūrėjų Duomenų analizei jie naudoja API, nors ji apsiriboja vieno mazgo apdorojimu.

Todėl „Python“ buvo pagrindinė „Spark 3.0“ plėtros sritis. Apache Spark API kūrimas buvo paspartintas, kad duomenų mokslininkai taptų produktyvesni dirbdami su dideliais duomenimis paskirstytoje aplinkoje.

Koalas pašalina poreikį kurti daug funkcijų (pvz., grafikos palaikymas) „PySpark“, kad klasteris veiktų geriau.

Kol kas galime pasakyti, kad „Spark“ vaidmuo dažnai apsiriboja ETL („Extract Transform Load“).

Dėl to ypač patobulintos API, įskaitant „Python“ tipo užuominas ir papildomus „pandas“ UDF (vartotojo nustatytas funkcijas).

„Spark 3.0“ siūlo geresnį „Python“ klaidų tvarkymą, ir skambučiai į vartotojo nustatytas R funkcijas yra iki 40 kartų greitesni.

Taip pat reikėtų pažymėti, kad „Spark 3.0“, 46% visų taisymų buvo skirti SQL funkcijoms, kuris pagerino tiek našumą, tiek ANSI suderinamumą.

Tai sakė trys svarbiausios naujos „Spark SQL“ variklio funkcijos yra adaptyvių užklausų vykdymas.

Optimizavimo metodai Užklausa paprastai orientuota į statinį užklausos optimizavimą.

Dėl „Spark“ saugojimo ir apdorojimo atskyrimo duomenų pateikimas gali būti nenuspėjamas. Dėl šių priežasčių adaptyvus užklausos vykdymas tampa svarbesnis „Spark“ nei tradicinėms sistemoms.

Yra daugybė kitų funkcijų, kurias galite patikrinti išleidimo pastabose. Funkcijos, apimančios duomenų šaltinius, ekosistemas, stebėjimą, derinimą ir kt.

Galite patikrinti išleidimo pastabą eidami į šią nuorodą.

Fuente: https://spark.apache.org/

Ubunlog

„Apache Spark“, didžiųjų duomenų analizės sistema atnaujinta į 3.0 versiją

Apie „Apache Spark 3.0“

Palikite komentarą Atšaukti atsakymą