Apache Spark, rammen for big data-analyse, er fornyet til version 3.0

Apache Spark er en ramme open source cluster computing som giver en grænseflade til klyngeprogrammering komplet med Implicit Data Parallelism og fejltolerance, som Spark-projektets codebase blev doneret til Apache Software Foundation, der er ansvarlig for vedligeholdelsen.

Apache Spark kan betragtes som et generelt, hastighedsorienteret klyngecomputersystem.

Giv API'er i Java, Scala, Python og R, plus giver også en optimeret motor der understøtter udførelsen af grafer generelt.

også understøtter et omfattende og rig sæt værktøjer på højt niveau blandt hvilke jeg kender inkluderer Spark SQL (til SQL-baseret struktureret databehandling), MLlib til implementering af maskinindlæring, GraphX til grafbehandling og Spark Streaming.

Spark SQL er modulet Apache Spark til at arbejde med strukturerede data og er meget populær i Spark-applikationer. Ifølge Databricks, virksomheden grundlagt af skaberne af Apache Spark, gør selv Python og Scala-udviklere meget af deres arbejde med Spark SQL-motoren.

Spark er i dag de facto-rammen for stor databehandling, datalogi, maskinindlæring og dataanalyse.

Om Apache Spark 3.0

Nu rammen er i sin version 3.0 og blandt de vigtigste nye funktioner skal det bemærkes, at Spark 3.0 er dobbelt så hurtig end den forrige version ved blandt andet at stole på TPC-DS.

Denne præstationsforøgelse blev opnået gennem forbedringer såsom at køre adaptive forespørgslerbeskæring af dynamiske partitioner og andre optimeringer. Overholdelsen af ANSI SQL-standarden er også blevet forbedret.

Spark 3.0 er en større version med mere end 3400 billetter løst, men kun inden for de store ændringer De begrænser sig til de vigtigste nye funktioner til blandt andet SQL og Python.

Apache Spark 3.0 styrker denne position ved i høj grad at forbedre understøttelsen af SQL og Python, de to mest anvendte sprog med Spark i dag og giver mange optimeringer på alle niveauer.

PySpark, Spark API til Python, har mere end 5 millioner månedlige downloads på PyPI, Python-pakkeindekset. Mange Python-udviklere De bruger API'en til dataanalyse, selvom den er begrænset til behandling af enkeltnoder.

Python var derfor et centralt udviklingsområde for Spark 3.0. API-udvikling på Apache Spark er blevet fremskyndet for at gøre dataforskere mere produktive, når de arbejder med big data i distribuerede miljøer.

Koalas eliminerer behovet for at oprette mange funktioner (f.eks. grafikunderstøttelse) i PySpark for bedre ydeevne i en klynge.

Indtil videre kan vi sige, at Sparks rolle ofte er begrænset til en ETL (Extract Transform Load).

Dette resulterer især i betydelige API-forbedringer, herunder tip af Python-type og yderligere pandas UDF'er (brugerdefinerede funktioner).

Spark 3.0 tilbyder bedre Python-fejlhåndtering, og opkald til brugerdefinerede R-funktioner er op til 40 gange hurtigere.

Det skal også bemærkes, at i Spark 3.0, 46% af alle rettelser var til SQL-funktionalitet, som har forbedret både ydeevne og ANSI-kompatibilitet.

Når det er sagt, de tre vigtigste nye funktioner i Spark SQL-motoren er udførelsen af adaptive forespørgsler.

Optimeringsmetoderne Forespørgsler fokuserer generelt på optimering af statisk forespørgsel.

På grund af adskillelsen af lagring og behandling i Spark kan ankomsten af data være uforudsigelig. Af disse grunde bliver udførelse af adaptiv forespørgsel mere afgørende for Spark end for traditionelle systemer.

Der er mange andre funktioner, som du kan tjekke ud i udgivelsesnoterne. Funktioner, der dækker datakilder, økosystemer, overvågning, fejlretning og mere.

Du kan tjekke udgivelsesnoten ved at gå til følgende link.

kilde: https://spark.apache.org/

Ubunlog

Apache Spark, den store dataanalyseramme fornyes til sin version 3.0

Om Apache Spark 3.0

Efterlad din kommentar Annuller svar