Apache Spark, фреймворк для анализа больших данных, обновлен до версии 3.0

Apache Spark - это фреймворк кластерные вычисления с открытым исходным кодом который предоставляет интерфейс для кластерного программирования в комплекте с неявным параллелизмом данных и отказоустойчивостью, которые кодовая база проекта Spark была подарена Apache Software Foundation, которая отвечает за ее обслуживание.

Apache Spark может считаться универсальной, ориентированной на скорость кластерной вычислительной системой.

Предоставлять API в Java, Scala, Python и R, а также также обеспечивает оптимизированный двигатель который поддерживает выполнение графиков в целом.

также поддерживает обширный и богатый набор инструментов высокого уровня среди которых я знаю включить Spark SQL (для обработки структурированных данных на основе SQL), MLlib для реализации машинного обучения, GraphX ​​для обработки графов и потоковой передачи Spark.

Spark SQL - это модуль Apache Spark для работы со структурированными данными и очень популярен в приложениях Spark. Согласно Databricks, компании, основанной создателями Apache Spark, даже разработчики Python и Scala большую часть своей работы выполняют с движком Spark SQL.

Сегодня Spark - это де-факто платформа для обработки больших данных, науки о данных, машинного обучения и анализа данных.

О Apache Spark 3.0

Сейчас фреймворк находится в его версии 3.0 и среди наиболее важных новых функций следует отметить, что Spark 3.0 в два раза быстрее по сравнению с предыдущей версией, в том числе за счет использования TPC-DS.

Это повышение производительности было достигнуто через улучшения например, выполнение адаптивных запросов, обрезка динамических разделов и другие оптимизации. Также улучшено соответствие стандарту ANSI SQL.

Spark 3.0 - это основная версия, в которой разрешено более 3400 обращений, но в рамках основных изменений только Они ограничиваются, среди прочего, основными новыми функциями SQL и Python.

Апач Спарк 3.0 укрепляет эту позицию за счет значительного улучшения поддержки SQL и Python, два наиболее широко используемых языка в Spark сегодня и обеспечивающие множество оптимизаций на всех уровнях.

PySpark, Spark API для Python, имеет более 5 миллионов загрузок в месяц на PyPI, индексе пакетов Python. Многие разработчики Python Они используют API для анализа данных, хотя он ограничивается обработкой одного узла.

Таким образом, Python был ключевая область разработки Spark 3.0. Ускорена разработка API на Apache Spark, чтобы специалисты по данным стали более продуктивными при работе с большими данными в распределенных средах.

Коала избавляет от необходимости создавать множество функций (например, поддержка графики) в PySpark для повышения производительности в кластере.

Пока мы можем сказать, что роль Spark часто ограничивается ролью ETL (извлечение нагрузки преобразования).

Это, в частности, приводит к значительным улучшениям API, включая подсказки типов Python и дополнительные пользовательские функции pandas (определяемые пользователем функции).

Spark 3.0 предлагает лучшую обработку ошибок Python, а вызовы пользовательских функций R выполняются до 40 раз быстрее.

Также следует отметить, что в Spark 3.0 46% всех исправлений касались функциональности SQL., что улучшило производительность и совместимость с ANSI.

Тем не менее, Три наиболее важных новых функции в движке Spark SQL - это выполнение адаптивных запросов.

Методы оптимизации Запросы обычно ориентированы на оптимизацию статических запросов.

Из-за разделения хранения и обработки в Spark поступление данных может быть непредсказуемым. По этим причинам адаптивное выполнение запросов становится более важным для Spark, чем для традиционных систем.

Есть много других функций, которые вы можете проверить в примечаниях к выпуску. Функции, охватывающие источники данных, экосистемы, мониторинг, отладку и многое другое.

Вы можете проверить примечание к выпуску перейдя по следующей ссылке.

источник: https://spark.apache.org/


Оставьте свой комментарий

Ваш электронный адрес не будет опубликован. Обязательные для заполнения поля помечены *

*

*

  1. Ответственный за данные: Мигель Анхель Гатон
  2. Назначение данных: контроль спама, управление комментариями.
  3. Легитимация: ваше согласие
  4. Передача данных: данные не будут переданы третьим лицам, кроме как по закону.
  5. Хранение данных: база данных, размещенная в Occentus Networks (ЕС)
  6. Права: в любое время вы можете ограничить, восстановить и удалить свою информацию.