После полутора лет разработки Фонд программного обеспечения Apache выпустил запуск новой версии Апач Хадуп 3.3.0, версия в котором он добавил улучшения для платформ ARM, поддержка планирования запусков контейнеров и прочего.
Apache Hadoop позиционирует себя как бесплатную платформу организовать распределенная обработка больших объемов данных с использованием парадигма сопоставления / сокращения, в которой задача делится на множество более мелких изолированных фрагментов, каждый из которых может выполняться на отдельном узле кластера.
Хранилище на основе Hadoop он может охватывать тысячи узлов и содержать эксабайты данных.
О Apache Hadoop
Hadoop включает реализацию распределенной файловой системы Hadoop (HDFS), который автоматически обеспечивает избыточность данных и оптимизирован для приложений MapReduce.
Ключевой функцией является то, что для эффективного планирования заданий каждая файловая система должна знать и предоставлять свое местоположение, имя стойки (точнее, коммутатора), где находится рабочий узел.
Приложения Hadoop могут использовать эту информацию для выполнения работы на узле, на котором находятся данные, а в случае сбоя - на той же стойке / коммутаторе, что снижает сетевой трафик.
Чтобы упростить доступ к данным в хранилище Hadoop, Разработаны база данных HBase и SQL-подобный язык Pig, который является типом SQL для MapReduce, запросы которого могут распараллеливаться и обрабатываться различными платформами Hadoop.
Проект оценивается как полностью стабильный и готовый к промышленной эксплуатации. Hadoop активно используется в крупных промышленных проектах, предоставляя возможности, аналогичные платформе Google Bigtable / GFS / MapReduce, в то время как Google официально делегировал Hadoop, а другие проекты Apache имеют право использовать защищенные патентом технологии, связанные с методом MapReduce.
Hadoop занимает первое место среди репозиториев Apache по количеству внесенных изменений и пятое место по величине кодовой базы (примерно 4 миллиона строк кода).
Что нового в Apache Hadoop 3.3?
Эта новая версия Hadoop позиционируется как первая версия, имеющая el поддержка платформ на базе ARM, с помощью которого те, кто заинтересован в возможности реализации этой платформы, смогут найти уже доступный двоичный файл для ARM.
Еще одно из основных изменений, представленных в этой новой версии, - это реализация новой версии формата Protobuf (Буферы протокола), используемые для сериализации структурированных данных обновлен до версии 3.7.1 в связи с окончанием жизненного цикла ветки protobuf-2.5.0.
В дополнение к этому, также возможности коннектора S3A уже расширены что теперь есть у него добавлена поддержка аутентификации с использованием токенов, улучшенная поддержка кэширования ответов с кодом 404, более высокая производительность S3guard и повышенная надежность работы.
также Добавлен DNS-преобразователь чтобы клиент мог определять серверы через DNS по именам хостов, что позволяет отказаться от списка всех хостов в конфигурации.
Так же хорошо как поддержка планирования запусков контейнеров через централизованный менеджер ресурсов (ResourceManager) даже с возможностью распределения контейнеров с учетом загрузки каждого узла.
Из других изменений, которые выделяются этой новой версии:
- Исправлены проблемы с автоматической настройкой в файловой системе ABFS.
- Добавлена встроенная поддержка файловой системы Tencent Cloud COS для доступа к хранилищу объектов COS.
- Добавлена полная поддержка Java 11.
- Стабилизирована реализация HDFS RBF (Router Based Federation). К маршрутизатору HDFS добавлены меры безопасности.
- Добавлен каталог приложения Search YARN (еще один переговорщик ресурсов).
Наконец, если вы хотите узнать об этом больше, вы можете проверить подробную информацию о новой версии на исходный пост.
Для тех, кто заинтересован в возможности получить новую версию, они могут скачать подготовленные двоичные файлы. По следующей ссылке.