Apache Spark, a estrutura de análise de big data foi renovada para sua versão 3.0

Apache Spark é um framework computação em cluster de código aberto que fornece uma interface para programação de cluster completo com paralelismo de dados implícito e tolerância a falhas, que a base de código do projeto Spark foi doada à Apache Software Foundation, que é responsável por sua manutenção.

Apache Spark pode ser considerado um sistema de computação em cluster orientado para a velocidade e de uso geral.

Fornece APIs em Java, Scala, Python e R, mais também fornece um motor otimizado que apóia a execução de gráficos em geral.

também suporta um amplo e rico conjunto de ferramentas de alto nível entre os quais eu conheço inclui Spark SQL (para processamento de dados estruturados com base em SQL), MLlib para implementar aprendizado de máquina, GraphX ​​para processamento de gráfico e Spark Streaming.

Spark SQL é o módulo Apache Spark para trabalhar com dados estruturados e é muito popular em aplicativos Spark. De acordo com a Databricks, a empresa fundada pelos criadores do Apache Spark, até mesmo os desenvolvedores de Python e Scala fazem grande parte de seu trabalho com o mecanismo Spark SQL.

Spark é hoje a estrutura de fato para processamento de big data, ciência de dados, aprendizado de máquina e análise de dados.

Sobre o Apache Spark 3.0

Atualmente a o framework está em sua versão 3.0 e entre os novos recursos mais importantes, deve-se notar que Spark 3.0 é duas vezes mais rápido do que a versão anterior, contando com TPC-DS, entre outros.

Este aumento de desempenho foi alcançado através de melhorias como a execução de consultas adaptativas, poda de partições dinâmicas e outras otimizações. A conformidade com o padrão ANSI SQL também foi aprimorada.

Spark 3.0 é uma versão principal com mais de 3400 tíquetes resolvidos, mas dentro das principais mudanças, apenas Eles se limitam às principais novidades para SQL e Python, entre outros.

Apache Faísca 3.0 fortalece esta posição melhorando muito o suporte para SQL e Python, as duas linguagens mais amplamente usadas com Spark hoje e fornecendo muitas otimizações em todos os níveis.

PySpark, a API Spark para Python, tem mais de 5 milhões de downloads mensais no PyPI, o índice de pacotes Python. Muitos desenvolvedores Python Eles usam a API para análise de dados, embora seja limitada ao processamento de um único nó.

Python era, portanto, uma área-chave de desenvolvimento para Spark 3.0. O desenvolvimento de API no Apache Spark foi acelerado para tornar os cientistas de dados mais produtivos ao trabalhar com big data em ambientes distribuídos.

Koalas elimina a necessidade de criar muitas funções (por exemplo, suporte gráfico) no PySpark, para melhor desempenho em um cluster.

Até agora, podemos dizer que a função do Spark é muitas vezes limitada à de um ETL (Extract Transform Load).

Isso resulta em melhorias significativas nas APIs, incluindo dicas de tipo Python e UDFs adicionais do pandas (funções definidas pelo usuário).

Spark 3.0 oferece melhor tratamento de erros Python, e as chamadas para funções R definidas pelo usuário são até 40 vezes mais rápidas.

Também deve ser observado que no Spark 3.0, 46% de todas as correções foram para a funcionalidade SQL, que melhorou o desempenho e a compatibilidade ANSI.

Dito isto, os três novos recursos mais importantes no mecanismo Spark SQL são a execução de consultas adaptativas.

Os métodos de otimização As consultas geralmente se concentram na otimização de consultas estáticas.

Devido à separação de armazenamento e processamento no Spark, a chegada de dados pode ser imprevisível. Por esses motivos, a execução de consulta adaptável torna-se mais crucial para o Spark do que para sistemas tradicionais.

Existem muitos outros recursos que você pode verificar nas notas de versão. Recursos que abrangem fontes de dados, ecossistemas, monitoramento, depuração e muito mais.

Você pode verificar a nota de lançamento acessando o seguinte link.

fonte: https://spark.apache.org/


Deixe um comentário

Seu endereço de email não será publicado. Campos obrigatórios são marcados com *

*

*

  1. Responsável pelos dados: Miguel Ángel Gatón
  2. Finalidade dos dados: Controle de SPAM, gerenciamento de comentários.
  3. Legitimação: Seu consentimento
  4. Comunicação de dados: Os dados não serão comunicados a terceiros, exceto por obrigação legal.
  5. Armazenamento de dados: banco de dados hospedado pela Occentus Networks (UE)
  6. Direitos: A qualquer momento você pode limitar, recuperar e excluir suas informações.