Apache Spark, фреймворк аналізу великих даних, оновлено до версії 3.0

Apache Spark - це фреймворк кластерні обчислення з відкритим кодом - - який забезпечує інтерфейс для кластерного програмування у комплекті з неявним паралелізмом даних та толерантністю до несправностей, коду коду якого проект Spark передав Фонду програмного забезпечення Apache, який відповідає за його обслуговування.

Apache Spark можна вважати загальноорієнтованою, орієнтованою на швидкість кластерною обчислювальною системою.

Надайте API в Java, Scala, Python та R, плюс також забезпечує оптимізований двигун що підтримує виконання графіків загалом.

також підтримує великий і багатий набір інструментів високого рівня серед яких я знаю включають Spark SQL (для структурованої обробки даних на основі SQL), MLlib для реалізації машинного навчання, GraphX для обробки графіків та Spark Streaming.

Spark SQL - це модуль Apache Spark для роботи зі структурованими даними і дуже популярний у додатках Spark. За даними Databricks, компанії, заснованої творцями Apache Spark, навіть розробники Python і Scala роблять більшу частину своєї роботи з движком Spark SQL.

Сьогодні Spark - це фактична основа для обробки великих даних, науки про дані, машинного навчання та аналізу даних.

Про Apache Spark 3.0

Зараз фреймворк знаходиться у його версії 3.0 а серед найважливіших нових функцій слід зазначити, що Spark 3.0 вдвічі швидший ніж попередня версія, покладаючись, зокрема, на TPC-DS.

Такого підвищення ефективності було досягнуто шляхом вдосконалення такі як запуск адаптивних запитів, обрізка динамічних розділів та інші оптимізації. Також було покращено відповідність стандарту ANSI SQL.

Spark 3.0 - це основна версія, на якій вирішено понад 3400 квитків, але лише в межах основних змін Вони обмежуються основними новими можливостями для SQL та Python, серед іншого.

Apache Spark 3.0 зміцнює цю позицію, значно покращуючи підтримку SQL та Python, дві найпоширеніші мови сьогодні із Spark, а також забезпечуючи безліч оптимізацій на всіх рівнях.

PySpark, Spark API для Python, має понад 5 мільйонів завантажень щомісяця на PyPI, індекс пакету Python. Багато розробників Python Вони використовують API для аналізу даних, хоча він обмежений обробкою одним вузлом.

Отже, Python був ключова область розвитку для Spark 3.0. Розробка API на Apache Spark була прискорена, щоб зробити науковців даних більш продуктивними при роботі з великими даними в розподілених середовищах.

Коала виключає необхідність створення багатьох функцій (наприклад, графічна підтримка) в PySpark, для кращої роботи кластера.

Поки що можна сказати, що роль Spark часто обмежується роллю ETL (Extract Transform Load).

Це, зокрема, призводить до значних удосконалень API, включаючи підказки типу Python та додаткові UDF-панд (користувацькі функції).

Spark 3.0 пропонує кращу обробку помилок Python, а дзвінки до визначених користувачем функцій R до 40 разів швидші.

Слід також зазначити, що у Spark 3.0, 46% усіх виправлень стосувалося функціональності SQL, який покращив як продуктивність, так і сумісність з ANSI.

Що сказав трьома найважливішими новими можливостями движка Spark SQL є виконання адаптивних запитів.

Методи оптимізації Зазвичай запити спрямовані на статичну оптимізацію запитів.

Через розділення зберігання та обробки в Spark надходження даних може бути непередбачуваним. З цих причин адаптивне виконання запитів стає для Spark більш важливим, ніж для традиційних систем.

Є багато інших функцій, які ви можете перевірити в примітках до випуску. Особливості, що охоплюють джерела даних, екосистеми, моніторинг, налагодження тощо.

Ви можете перевірити примітку до випуску перейшовши за таким посиланням.

Фуенте: https://spark.apache.org/

Залиште свій коментар Скасувати відповідь

Ваша електронна адреса не буде опублікований. Обов'язкові для заповнення поля позначені *

коментар *

Ім'я*

електронна пошта*

Я приймаю умови конфіденційності*

Відповідальний за дані: Мігель Анхель Гатон
Призначення даних: Контроль спаму, управління коментарями.
Легітимація: Ваша згода
Передача даних: Дані не передаватимуться третім особам, за винятком юридичних зобов’язань.
Зберігання даних: База даних, розміщена в мережі Occentus Networks (ЄС)
Права: Ви можете будь-коли обмежити, відновити та видалити свою інформацію.

Я хочу отримувати бюлетень

Ubunlog

Apache Spark, система аналізу великих даних оновлена до версії 3.0

Про Apache Spark 3.0

Залиште свій коментар Скасувати відповідь