Apache Spark, lielo datu analīzes sistēma ir atjaunota līdz tās 3.0 versijai

Apache Spark ir ietvars atvērtā koda kopu skaitļošana kas nodrošina saskarni klasteru programmēšanai komplektā ar netiešu datu paralēlismu un kļūdu toleranci, kuras projekta Spark koda bāze tika ziedota Apache programmatūras fondam, kas ir atbildīgs par tā uzturēšanu.

Apache Spark var uzskatīt par vispārējas nozīmes, uz ātrumu orientētu kopu skaitļošanas sistēmu.

Nodrošiniet API Java, Scala, Python un R plus nodrošina arī optimizētu motoru kas atbalsta grafiku izpildi kopumā.

arī atbalsta plašu un bagātīgu augsta līmeņa rīku komplektu starp kuriem es zinu iekļaujiet Spark SQL (SQL balstītai strukturētai datu apstrādei), MLlib, lai ieviestu mašīnmācīšanos, GraphX ​​grafiku apstrādei un Spark Streaming.

Spark SQL ir modulis Apache Spark darbam ar strukturētiem datiem un ir ļoti populārs Spark lietojumprogrammās. Kā norāda Apache Spark radītāju dibinātais uzņēmums Databricks, pat Python un Scala izstrādātāji lielu darbu veic ar Spark SQL dzinēju.

Spark šodien ir lielo datu apstrādes, datu zinātnes, mašīnmācīšanās un datu analīzes faktiskais ietvars.

Par Apache Spark 3.0

Tagad ietvars ir tā versijā 3.0 un starp svarīgākajām jaunajām funkcijām jāatzīmē, ka Spark 3.0 ir divreiz ātrāks nekā iepriekšējā versija, cita starpā paļaujoties arī uz TPC-DS.

Šis veiktspējas pieaugums tika sasniegts izmantojot uzlabojumus piemēram, adaptīvo vaicājumu izpilde, dinamisko starpsienu atzarošana un citas optimizācijas. Ir uzlabota arī atbilstība ANSI SQL standartam.

Spark 3.0 ir galvenā versija ar vairāk nekā 3400 atrisinātām biļetēm, taču tikai galveno izmaiņu ietvaros Viņi aprobežojas ar galvenajām jaunajām SQL un Python funkcijām, cita starpā.

Apache Spark 3.0 nostiprina šo pozīciju, ievērojami uzlabojot atbalstu SQL un Python, divas visplašāk lietotās valodas ar Spark mūsdienās un nodrošinot daudzas optimizācijas visos līmeņos.

PySpark, Python Spark API, mēnesī lejupielādē vairāk nekā 5 miljonus PyPI, Python pakotņu indeksa. Daudzi Python izstrādātāji Datu analīzei viņi izmanto API, lai gan tas attiecas tikai uz viena mezgla apstrādi.

Tāpēc Python bija galvenā Spark 3.0 attīstības joma. Apache Spark API izstrāde ir paātrināta, lai padarītu datu zinātniekus produktīvākus, strādājot ar lielajiem datiem sadalītās vidēs.

Koalas novērš nepieciešamību izveidot daudzas funkcijas (piemēram, grafikas atbalsts) PySpark, lai sniegtu labāku kopu.

Līdz šim mēs varam teikt, ka Spark loma bieži tiek ierobežota tikai ar ETL (Extract Transform Load) lomu.

Tā rezultātā tiek īpaši būtiski uzlaboti API, tostarp Python tipa padomi un papildu pandas UDF (lietotāja definētas funkcijas).

Spark 3.0 piedāvā labāku Python kļūdu apstrādi, un zvani uz lietotāja definētām R funkcijām ir līdz pat 40 reizēm ātrāki.

Jāatzīmē arī tas, ka Spark 3.0, 46% no visiem labojumiem bija saistīti ar SQL funkcionalitāti, kas ir uzlabojis gan veiktspēju, gan ANSI savietojamību.

Tas teica trīs svarīgākās jaunās iespējas Spark SQL dzinējā ir adaptīvo vaicājumu izpilde.

Optimizācijas metodes Vaicājumi parasti koncentrējas uz statisku vaicājumu optimizāciju.

Sakarā ar glabāšanas un apstrādes nodalīšanu Spark, datu ierašanās var būt neparedzama. Šo iemeslu dēļ adaptīvā vaicājuma izpilde Spark kļūst svarīgāka nekā tradicionālajām sistēmām.

Ir daudzas citas funkcijas, kuras varat pārbaudīt laidiena piezīmēs. Funkcijas, kas aptver datu avotus, ekosistēmas, uzraudzību, atkļūdošanu un daudz ko citu.

Jūs varat pārbaudīt laidiena piezīmi pārejot uz šo saiti.

Fuente: https://spark.apache.org/


Atstājiet savu komentāru

Jūsu e-pasta adrese netiks publicēta. Obligātie lauki ir atzīmēti ar *

*

*

  1. Atbildīgais par datiem: Migels Ángels Gatóns
  2. Datu mērķis: SPAM kontrole, komentāru pārvaldība.
  3. Legitimācija: jūsu piekrišana
  4. Datu paziņošana: Dati netiks paziņoti trešām personām, izņemot juridiskus pienākumus.
  5. Datu glabāšana: datu bāze, ko mitina Occentus Networks (ES)
  6. Tiesības: jebkurā laikā varat ierobežot, atjaunot un dzēst savu informāciju.