Apache Spark, big data -analyysikehys, uusitaan versioon 3.0

Apache Spark on kehys avoimen lähdekoodin klusterilaskenta joka tarjoaa käyttöliittymän klusterien ohjelmointiin täydennettynä implisiittisellä tietojen rinnakkaisuudella ja vikatoleranssilla, jotka Spark-projektin koodipohja lahjoitettiin Apache Software Foundationille, joka vastaa sen ylläpidosta.

Apache Spark voidaan pitää yleiskäyttöisenä, nopeuslähtöisenä klusterilaskentajärjestelmänä.

Anna API: t Java, Scala, Python ja R plus tarjoaa myös optimoidun moottorin joka tukee kaavioiden suorittamista yleensä.

myös tukee laajaa ja runsasta joukkoa korkean tason työkaluja joiden joukossa tiedän sisältää Spark SQL: n (SQL-pohjaiseen jäsenneltyyn tietojenkäsittelyyn), MLlib koneoppimisen toteuttamiseen, GraphX graafin käsittelyyn ja Spark Streaming.

Spark SQL on moduuli Apache Spark Strukturoidun datan käsittelyyn ja on erittäin suosittu Spark-sovelluksissa. Apache Sparkin luojien perustaman yrityksen Databricksin mukaan jopa Pythonin ja Scalan kehittäjät tekevät suuren osan työstään Spark SQL -moottorilla.

Spark on nykyään tosiasiallinen kehys suurten tietojen käsittelylle, datatieteelle, koneoppimiselle ja data-analytiikalle.

Tietoja Apache Spark 3.0: sta

Nyt kehys on versiossa 3.0 ja tärkeimpien uusien ominaisuuksien joukossa on huomattava, että Spark 3.0 on kaksi kertaa nopeampi verrattuna edelliseen versioon tukeutuen muun muassa TPC-DS: ään.

Tämä suorituskyvyn kasvu saavutettiin parannusten avulla kuten mukautuvien kyselyjen suorittaminen, dynaamisten osioiden karsiminen ja muut optimoinnit. Myös ANSI SQL -standardin noudattamista on parannettu.

Spark 3.0 on pääversio, jossa on yli 3400 ratkaistua lippua, mutta vain tärkeimpien muutosten puitteissa Ne rajoittuvat muun muassa SQL: n ja Pythonin tärkeimpiin uusiin ominaisuuksiin.

Apache Spark 3.0 vahvistaa tätä asemaa parantamalla huomattavasti SQL: n ja Pythonin tukea, kaksi eniten käytettyä kieltä Sparkilla tänään ja tarjoamalla monia optimointeja kaikilla tasoilla.

PySparkilla, Pythonin Spark-sovellusliittymällä, on yli 5 miljoonaa kuukausittaista latausta PyPI: hen, Python-pakettihakemistoon. Monet Python-kehittäjät He käyttävät sovellusliittymää tietojen analysointiin, vaikka se rajoittuu yhden solmun käsittelyyn.

Python oli siis Spark 3.0: n keskeinen kehitysalue. Apache Spark -sovelluksen sovellusliittymäkehitystä on nopeutettu, jotta datatieteilijät olisivat tuottavampia työskennellessään suurten tietojen kanssa hajautetuissa ympäristöissä.

Koalas eliminoi tarpeen luoda monia toimintoja (esim. grafiikkatuki) PySparkissa parempaan suorituskykyyn klusterissa.

Toistaiseksi voimme sanoa, että Sparkin rooli rajoittuu usein ETL: ään (Extract Transform Load).

Tämä johtaa erityisesti merkittäviin API-parannuksiin, mukaan lukien Python-tyyppiset vihjeet ja ylimääräiset pandojen UDF: t (käyttäjän määrittelemät toiminnot).

Spark 3.0 tarjoaa paremman Python-virheiden käsittelyn, ja puhelut käyttäjän määrittelemille R-toiminnoille ovat jopa 40 kertaa nopeampia.

On myös huomattava, että Spark 3.0: ssa 46% kaikista korjauksista tehtiin SQL-toiminnoille, joka on parantanut sekä suorituskykyä että ANSI-yhteensopivuutta.

Se sanoi, Spark SQL -moottorin kolme tärkeintä uutta ominaisuutta ovat mukautuvien kyselyjen suorittaminen.

Optimointimenetelmät Kyselyt keskittyvät yleensä staattiseen kyselyn optimointiin.

Koska Sparkissa on erillinen varastointi ja käsittely, tietojen saapuminen voi olla arvaamatonta. Näistä syistä mukautuva kyselyn suoritus tulee Sparkille tärkeämmäksi kuin perinteisille järjestelmille.

On monia muita ominaisuuksia, jotka voit tarkistaa julkaisutiedoista. Ominaisuudet, jotka kattavat tietolähteet, ekosysteemit, seurannan, virheenkorjauksen ja paljon muuta.

Voit tarkistaa julkaisutiedot siirtymällä seuraavaan linkkiin.

lähde: https://spark.apache.org/

Ubunlog

Apache Spark, isojen tietojen analysointikehys uusitaan versioon 3.0

Tietoja Apache Spark 3.0: sta

Jätä kommentti Peruuta vastaus