Ang Apache Spark, ang malaking balangkas ng pagtatasa ng data ay na-update sa bersyon nito 3.0

Ang Apache Spark ay isang balangkas open source cluster computing na nagbibigay ng isang interface para sa cluster program kumpleto sa Implicit Data Parallelism at Fault Tolerance, na kung saan ang proyekto ng Spark codebase ay ibinigay sa Apache Software Foundation na responsable para sa pagpapanatili nito.

Apache Spark ay maaaring isaalang-alang bilang isang pangkalahatang-layunin, bilis-oriented na kumpol ng sistema ng computing.

Magbigay ng mga API sa Java, Scala, Python at R, plus nagbibigay din ng isang na-optimize na engine na sumusuporta sa pagpapatupad ng mga graph sa pangkalahatan.

Rin sumusuporta sa isang malawak at mayamang hanay ng mga tool sa mataas na antas bukod sa alam ko isama ang Spark SQL (para sa SQL-based na nakabalangkas na pagpoproseso ng data), MLlib upang ipatupad ang pag-aaral ng machine, GraphX ​​para sa pagpoproseso ng grap, at Spark Streaming.

Ang Spark SQL ay ang module Apache Spark para sa pagtatrabaho sa nakabalangkas na data at napakapopular sa mga application ng Spark. Ayon sa Databricks, ang kumpanya na itinatag ng mga tagalikha ng Apache Spark, kahit na ang mga developer ng Python at Scala ay ginagawa ang karamihan sa kanilang trabaho sa Spark SQL engine.

Ang Spark ngayon ang de facto framework para sa malaking pagpoproseso ng data, data science, machine learning, at data analytics.

Tungkol sa Apache Spark 3.0

Ngayon ang balangkas ay nasa bersyon nito 3.0 at kabilang sa pinakamahalagang mga bagong tampok, dapat pansinin na Ang Spark 3.0 ay mas mabilis nang dalawang beses kaysa sa nakaraang bersyon sa pamamagitan ng pag-asa sa TPC-DS, bukod sa iba pa.

Ang pagtaas ng pagganap na ito ay nakamit sa pamamagitan ng mga pagpapabuti tulad ng pagpapatakbo ng mga adaptive query, pruning ng mga pabago-bagong partisyon at iba pang mga pag-optimize. Ang pagsunod sa pamantayan ng ANSI SQL ay napabuti din.

Ang Spark 3.0 ay isang pangunahing bersyon na may higit sa 3400 na nalutas na mga tiket, ngunit sa loob ng pangunahing mga pagbabago, lamang Nililimitahan nila ang kanilang sarili sa pangunahing mga bagong tampok para sa SQL at Python, bukod sa iba pa.

Apache Spark 3.0 Pinatitibay ang posisyon na ito sa pamamagitan ng lubos na pagpapabuti ng suporta para sa SQL at Python, ang dalawang pinakalawakang ginagamit na wika na may Spark ngayon at sa pamamagitan ng pagbibigay ng maraming mga pag-optimize sa lahat ng mga antas.

Ang PySpark, ang Spark API para sa Python, ay may higit sa 5 milyong buwanang mga pag-download sa PyPI, ang index ng package ng Python. Maraming mga developer ng Python Ginagamit nila ang API para sa pagtatasa ng data, kahit na limitado ito sa pagproseso ng solong node.

Ang Python ay, samakatuwid, isang pangunahing lugar ng pag-unlad para sa Spark 3.0. Ang pagbuo ng API sa Apache Spark ay pinabilis upang gawing mas produktibo ang mga siyentipiko ng data kapag nagtatrabaho sa malaking data sa mga ipinamamahaging kapaligiran.

Tinanggal ni Koalas ang pangangailangan na lumikha ng maraming mga pag-andar (hal. suporta sa graphics) sa PySpark, para sa mas mahusay na pagganap sa isang kumpol.

Sa ngayon, masasabi nating ang papel ng Spark ay madalas na limitado sa isang ETL (Exact Transform Load).

Sa partikular na mga resulta sa makabuluhang pagpapabuti ng API, kabilang ang mga pahiwatig ng uri ng Python at mga karagdagang pandas UDF (mga function na tinukoy ng gumagamit).

Nag-aalok ang Spark 3.0 ng mas mahusay na paghawak ng error sa Python, at mga tawag sa tinukoy ng gumagamit na R function ay hanggang sa 40 beses na mas mabilis.

Dapat ding tandaan na sa Spark 3.0, 46% ng lahat ng mga pag-aayos ay para sa pagpapaandar ng SQL, na nagpapabuti sa parehong pagganap at pagiging tugma ng ANSI.

Na sinabi, ang tatlong pinakamahalagang bagong tampok sa Spark SQL engine ay ang pagpapatupad ng mga adaptive query.

Ang mga pamamaraan sa pag-optimize Ang mga query sa pangkalahatan ay nakatuon sa static na pag-optimize ng query.

Dahil sa paghihiwalay ng imbakan at pagproseso sa Spark, ang pagdating ng data ay maaaring hindi mahulaan. Para sa mga kadahilanang ito, ang pagpapatupad ng pagpapatupad ng query ay naging mas mahalaga para sa Spark kaysa sa tradisyonal na mga system.

Maraming iba pang mga tampok na maaari mong suriin sa mga tala ng paglabas. Mga tampok na sumasakop sa mga mapagkukunan ng data, ecosystem, pagsubaybay, pag-debug, at higit pa.

Maaari mong suriin ang tala ng paglabas sa pamamagitan ng pagpunta sa sumusunod na link.

Fuente: https://spark.apache.org/


Iwanan ang iyong puna

Ang iyong email address ay hindi nai-publish. Mga kinakailangang patlang ay minarkahan ng *

*

*

  1. Responsable para sa data: Miguel Ángel Gatón
  2. Layunin ng data: Kontrolin ang SPAM, pamamahala ng komento.
  3. Legitimation: Ang iyong pahintulot
  4. Komunikasyon ng data: Ang data ay hindi maiparating sa mga third party maliban sa ligal na obligasyon.
  5. Imbakan ng data: Ang database na naka-host ng Occentus Networks (EU)
  6. Mga Karapatan: Sa anumang oras maaari mong limitahan, mabawi at tanggalin ang iyong impormasyon.