Apache Spark, qaabdhismeedka falanqaynta xogta weyn ayaa loo cusbooneysiiyay nooca 3.0

Apache Spark waa qaab-dhismeed xisaabinta isku-xidhka isha kaas oo bixiya is-dhexgal loogu talagalay barnaamijyada kooxaha oo dhammaystiran Isbarbar-dhigga Xog-la'aanta Xogta iyo Dul-qaad la'aanta, oo mashruuca 'Spark codebase' loogu deeqay Apache Software Foundation oo gacanta ku haysa dayactirkeeda.

Apache Spark waxaa loo qaadan karaa inay tahay ujeedo guud, nidaamka xisaabinta cluster-xawaaraha ku wajahan.

Bixi API-yada Java, Scala, Python iyo R, oo lagu daray sidoo kale waxay bixisaa mashiin la hagaajiyay kaas oo taageeraya fulinta garaafyada guud ahaan.

Sidoo kale waxay taageertaa qalab ballaaran oo hodan ah oo qalab heer sare ah kuwaas oo aan ogahay waxaa ka mid ah Spark SQL (loogu talagalay ka baaraandegidda xogta qaabeysan ee SQL ku saleysan), MLlib si loo hirgeliyo barashada mashiinka, GraphX ​​ee qaabeynta garaafka, iyo Spark Streaming.

Spark SQL waa moduleka Apache Spark loogu talagalay la shaqeynta xogta habeysan waana mid caan ku ah barnaamijyada Spark. Sida laga soo xigtay Databricks, shirkadda ay aasaaseen abuurayaasha Apache Spark, xitaa Python iyo Scala horumariyayaashu waxay inbadan shaqadooda ku qabtaan mashiinka Spark SQL.

Spark maanta waa qaabka dhabta ah ee qaabaynta xogta weyn, sayniska xogta, barashada mashiinka, iyo falanqaynta xogta.

Ku saabsan Apache Spark 3.0

Hadda qaabku wuxuu ku jiraa nuuca uu yahay 3.0 oo ka mid ah qaababka cusub ee ugu muhiimsan, waa in la ogaadaa taas Spark 3.0 waa laba jibbaar marka loo eego noocii hore adigoo ku tiirsan TPC-DS, iyo kuwo kale.

Kordhinta waxqabadka ayaa la gaadhay iyada oo loo marayo hagaajinta sida socodsiinta weydiimaha la qabsiga, manjooyin qormooyin firfircoon iyo waxyaabo kale oo ku habboon. U hoggaansanaanta heerka ANSI SQL sidoo kale waa la hagaajiyay.

Spark 3.0 waa nooc weyn oo leh in ka badan 3400 tikidhada la xalliyey, laakiin ku jira isbeddelada waaweyn, kaliya Waxay ku xadidayaan astaamaha cusub ee cusub ee SQL iyo Python, iyo kuwo kale.

Apache Spark 3.0 wuxuu xoojiyaa booskan isagoo si weyn u hagaajinaya taageerada SQL iyo Python, labada luuqadood ee sida aadka ah loo adeegsado oo leh Spark maanta iyo iyada oo la siinayo waxyaabo badan oo ku habboon heerar kasta.

PySpark, Spark API ee Python, wuxuu leeyahay wax ka badan 5 milyan oo soo degsasho bille ah PyPI, tusmada xirmada Python. Qaar badan oo horumariyayaal ah Waxay u isticmaalaan API falanqaynta xogta, inkasta oo ay ku kooban tahay hal ku shaqaynta buro.

Python wuxuu ahaa, sidaa darteed, aag muhiim u ah horumarka Spark 3.0. Horumarinta API-da ee 'Apache Spark' waa la dedejiyay si saynisyahannada xogta looga dhigo kuwo wax soo saar leh marka ay la shaqeynayaan xog weyn oo ku saabsan deegaanno la qaybiyey.

Koalas waxay tirtiraysaa baahida loo qabo in la abuuro shaqooyin badan (tusaale ahaan taageerada garaafyada) PySpark, si waxqabad wanaagsan looga helo kutlada.

Illaa iyo hadda, waxaan dhihi karnaa in kaalinta Spark ay inta badan ku kooban tahay ETL (Extract Transform Load).

Tani waxay si gaar ah u dhalisaa horumarinno muhiim ah oo API ah, oo ay ku jiraan tilmaamaha nooca Python iyo Uandayaasha pandas dheeri ah (shaqooyinka la qeexay isticmaalaha).

Spark 3.0 ayaa sifiican u maareeya qaladka Python, iyo wicitaanada adeegsadaha lagu qeexay shaqooyinka R ayaa ilaa 40 jeer ka dhakhso badan.

Sidoo kale waa in la ogaadaa in Spark 3.0, 46% dhammaan hagaajinta waxaa loogu talagalay shaqeynta SQL, taas oo hagaajisay waxqabadka iyo iswaafajinta ANSI labadaba.

Taasi waxay tidhi, saddexda astaamood ee ugu muhiimsan ee ku jira mashiinka 'Spark SQL' waa fulinta weydiimaha la qabsiga.

Hababka iswaafajinta Weydiimaha guud ahaan waxay diiradda saaraan hagaajinta weydiinta joogtada ah.

Sababtoo ah kala soocidda keydinta iyo ka shaqeynta Spark, imaatinka xogta wuxuu noqon karaa mid aan la saadaalin karin Sababahan awgood, fulinta weydiinta laqabsashada waxay udub dhexaad u tahay Spark marka loo eego nidaamyada dhaqameed.

Waxaa jira astaamo kale oo badan oo aad ku hubin karto qoraallada sii deynta. Astaamaha daboolaya ilaha xogta, nidaamyada deegaanka, kormeerka, dib u habeynta, iyo inbadan.

Waad eegi kartaa qoraalka sii-deynta adoo maraya isku xirka soo socda.

source: https://spark.apache.org/


Ka tag faalladaada

cinwaanka email aan la daabacin doonaa. Beeraha loo baahan yahay waxaa lagu calaamadeeyay la *

*

*

  1. Masuul ka ah xogta: Miguel Ángel Gatón
  2. Ujeedada xogta: Xakamaynta SPAM, maaraynta faallooyinka.
  3. Sharci: Oggolaanshahaaga
  4. Isgaarsiinta xogta: Xogta looma gudbin doono dhinacyada saddexaad marka laga reebo waajibaadka sharciga ah.
  5. Kaydinta xogta: Macluumaadka ay martigelisay Shabakadaha Occentus (EU)
  6. Xuquuqda: Waqti kasta oo aad xadidi karto, soo ceshan karto oo tirtiri karto macluumaadkaaga.