Apache Spark, ramverket för big data-analys, förnyas till version 3.0

Apache Spark är ett ramverk öppen källkod cluster computing som ger ett gränssnitt för klusterprogrammering komplett med Implicit Data Parallelism and Fault Tolerance, som kodbasen för Spark-projektet donerades till Apache Software Foundation som ansvarar för underhållet.

Apache Spark kan betraktas som ett allmänt ändamål, hastighetsorienterat klusterberäkningssystem.

Ge API: er i Java, Scala, Python och R, plus ger också en optimerad motor som stöder utförandet av grafer i allmänhet.

också stöder en omfattande och rik uppsättning verktyg på hög nivå bland vilka jag vet inkluderar Spark SQL (för SQL-baserad strukturerad databehandling), MLlib för att implementera maskininlärning, GraphX för grafbehandling och Spark Streaming.

Spark SQL är modulen Apache Spark för att arbeta med strukturerad data och är mycket populär i Spark-applikationer. Enligt Databricks, företaget grundat av skaparna av Apache Spark, gör även Python och Scala-utvecklare mycket av sitt arbete med Spark SQL-motorn.

Spark är idag de facto-ramverket för stor databehandling, datavetenskap, maskininlärning och dataanalys.

Om Apache Spark 3.0

Nu ramverket finns i sin version 3.0 och bland de viktigaste nya funktionerna bör det noteras att Spark 3.0 är dubbelt så snabbt än den tidigare versionen genom att förlita sig på bland annat TPC-DS.

Denna prestationsökning uppnåddes genom förbättringar som att köra anpassningsbara frågor, beskärning av dynamiska partitioner och andra optimeringar. Överensstämmelsen med ANSI SQL-standarden har också förbättrats.

Spark 3.0 är en större version med mer än 3400 biljetter lösta, men inom de större förändringarna, bara De begränsar sig till de viktigaste nya funktionerna för bland annat SQL och Python.

Apache Spark 3.0 stärker denna position genom att kraftigt förbättra stöd för SQL och Python, de två mest använda språken med Spark idag och genom att tillhandahålla många optimeringar på alla nivåer.

PySpark, Spark API för Python, har mer än 5 miljoner nedladdningar per månad på PyPI, Python-paketindex. Många Python-utvecklare De använder API: et för dataanalys, även om det är begränsat till bearbetning av en enda nod.

Python var därför ett viktigt utvecklingsområde för Spark 3.0. API-utveckling på Apache Spark har påskyndats för att göra dataforskare mer produktiva när de arbetar med big data i distribuerade miljöer.

Koalas eliminerar behovet av att skapa många funktioner (t.ex. grafikstöd) i PySpark för bättre prestanda i ett kluster.

Hittills kan vi säga att Sparks roll ofta är begränsad till en ETL (Extract Transform Load).

Detta resulterar särskilt i betydande API-förbättringar, inklusive Python-typtips och ytterligare pandor UDF: er (användardefinierade funktioner).

Spark 3.0 erbjuder bättre Python-felhantering, och samtal till användardefinierade R-funktioner är upp till 40 gånger snabbare.

Det bör också noteras att i Spark 3.0, 46% av alla korrigeringar var för SQL-funktionalitet, vilket har förbättrat både prestanda och ANSI-kompatibilitet.

Som sagt, de tre viktigaste nya funktionerna i Spark SQL-motorn är utförandet av anpassningsbara frågor.

Optimeringsmetoderna Frågor fokuserar i allmänhet på statisk frågeoptimering.

På grund av separationen av lagring och bearbetning i Spark kan ankomsten av data vara oförutsägbar. Av dessa skäl blir adaptiv frågeexekvering mer avgörande för Spark än för traditionella system.

Det finns många andra funktioner som du kan kolla in i release-anteckningarna. Funktioner som täcker datakällor, ekosystem, övervakning, felsökning och mer.

Du kan kontrollera utgåvan genom att gå till följande länk.

Fuente: https://spark.apache.org/

Ubunlog

Apache Spark, ramverket för stor dataanalys förnyas till sin version 3.0

Om Apache Spark 3.0

Lämna din kommentar Avbryt svar