Apache Spark, korniza e analizës së të dhënave të mëdha rinovohet në versionin e saj 3.0

Apache Spark është një kornizë informatikë grumbulluese me burim të hapur e cila siguron një ndërfaqe për programimin e grupeve kompletohet me Paralelizmin e të Dhënave Implicite dhe Tolerancën ndaj Fajit, të cilën baza kodike e projektit Spark iu dhurua Apache Software Foundation e cila është përgjegjëse për mirëmbajtjen e saj.

Apache Spark mund të konsiderohet një sistem i llogaritjes së grupeve me qëllim të përgjithshëm, të orientuar drejt shpejtësisë.

Siguroni API-të në Java, Scala, Python dhe R, plus gjithashtu siguron një motor të optimizuar që mbështet ekzekutimin e grafikëve në përgjithësi.

edhe mbështet një grup të gjerë dhe të pasur të mjeteve të nivelit të lartë ndër të cilat unë njoh përfshijnë Spark SQL (për përpunimin e strukturuar të të dhënave të bazuara në SQL), MLlib për të zbatuar të mësuarit makinerik, GraphX ​​për përpunimin e grafikut dhe Spark Streaming.

Shkëndija SQL është moduli Apache Spark për të punuar me të dhëna të strukturuara dhe është shumë popullor në aplikacionet Spark. Sipas Databricks, kompania e themeluar nga krijuesit e Apache Spark, madje edhe zhvilluesit e Python dhe Scala bëjnë pjesën më të madhe të punës së tyre me motorin Spark SQL.

Shkëndija është sot korniza de facto për përpunimin e të dhënave të mëdha, shkencën e të dhënave, mësimin makinerik dhe analizat e të dhënave.

Rreth Apache Spark 3.0

Tani korniza është në versionin e saj 3.0 dhe ndër tiparet e reja më të rëndësishme, duhet theksuar se Shkëndija 3.0 është dy herë më e shpejtë sesa versioni i mëparshëm duke u mbështetur në TPC-DS, ndër të tjera.

Kjo rritje e performancës u arrit përmes përmirësimeve siç janë ekzekutimi i pyetjeve adaptive, krasitja e ndarjeve dinamike dhe optimizime të tjera. Pajtueshmëria me standardin ANSI SQL është përmirësuar gjithashtu.

Spark 3.0 është një version kryesor me më shumë se 3400 bileta të zgjidhura, por vetëm brenda ndryshimeve të mëdha Ata kufizohen në veçoritë kryesore të reja për SQL dhe Python, ndër të tjera.

Apache Spark 3.0 forcon këtë pozicion duke përmirësuar shumë mbështetjen për SQL dhe Python, dy gjuhët më të përdorura me Spark sot dhe duke siguruar shumë optimizime në të gjitha nivelet.

PySpark, Spark API për Python, ka më shumë se 5 milion shkarkime mujore në PyPI, indeksin e paketës Python. Shumë zhvillues Python Ata përdorin API për analizën e të dhënave, megjithëse është i kufizuar në përpunimin e nyjeve të vetme.

Python ishte, pra, një fushë kryesore e zhvillimit për Spark 3.0. Zhvillimi i API në Apache Spark është përshpejtuar për t'i bërë shkencëtarët e të dhënave më produktivë kur punojnë me të dhëna të mëdha në ambiente të shpërndara.

Koalas eliminon nevojën për të krijuar shumë funksione (p.sh. mbështetje grafike) në PySpark, për performancë më të mirë në një grup.

Deri më tani, mund të themi që roli i Spark shpesh kufizohet në atë të një ETL (Extract Transform Load).

Kjo në veçanti rezulton në përmirësime të ndjeshme të API-së, duke përfshirë sugjerime të tipit Python dhe panda shtesë UDF (funksione të përcaktuara nga përdoruesi).

Spark 3.0 ofron trajtim më të mirë të gabimeve Python, dhe thirrjet për funksionet R të përcaktuara nga përdoruesi janë deri në 40 herë më të shpejta.

Duhet gjithashtu të theksohet se në Spark 3.0, 46% e të gjitha rregullimeve ishin për funksionalitetin e SQL, e cila ka përmirësuar performancën dhe përputhshmërinë ANSI.

Kjo tha, tre tiparet e reja më të rëndësishme në motorin Spark SQL janë ekzekutimi i pyetjeve adaptive.

Metodat e optimizimit Pyetjet zakonisht përqendrohen në optimizimin e pyetjeve statike.

Për shkak të ndarjes së magazinimit dhe përpunimit në Spark, mbërritja e të dhënave mund të jetë e paparashikueshme. Për këto arsye, ekzekutimi i pyetjes adaptive bëhet më i rëndësishëm për Spark sesa për sistemet tradicionale.

Ka shumë karakteristika të tjera që mund t'i shikoni në shënimet e lëshimit. Karakteristikat që mbulojnë burimet e të dhënave, ekosistemet, monitorimin, korrigjimin e gabimeve, dhe më shumë.

Ju mund të kontrolloni shënimin e lëshimit duke shkuar në lidhjen e mëposhtme.

Fuente: https://spark.apache.org/


Lini komentin tuaj

Adresa juaj e emailit nuk do të publikohet. Fusha e kërkuar janë shënuar me *

*

*

  1. Përgjegjës për të dhënat: Miguel Ángel Gatón
  2. Qëllimi i të dhënave: Kontrolloni SPAM, menaxhimin e komenteve.
  3. Legjitimimi: Pëlqimi juaj
  4. Komunikimi i të dhënave: Të dhënat nuk do t'u komunikohen palëve të treta përveç me detyrim ligjor.
  5. Ruajtja e të dhënave: Baza e të dhënave e organizuar nga Occentus Networks (BE)
  6. Të drejtat: Në çdo kohë mund të kufizoni, rikuperoni dhe fshini informacionin tuaj.