빅 데이터 분석 프레임 워크 Apache Spark가 버전 3.0으로 갱신되었습니다.

Apache Spark는 프레임 워크입니다. 오픈 소스 클러스터 컴퓨팅 클러스터 프로그래밍을위한 인터페이스를 제공합니다. Implicit Data Parallelism 및 Fault Tolerance로 완성되며 Spark 프로젝트 코드베이스는 유지 관리를 담당하는 Apache Software Foundation에 기부되었습니다.

아파치 스파크 범용, 속도 지향 클러스터 컴퓨팅 시스템으로 간주 될 수 있습니다..

API 제공 Java, Scala, Python 및 R에서 또한 최적화 된 엔진을 제공합니다 일반적으로 그래프 실행을 지원합니다.

또한 광범위하고 풍부한 고급 도구 세트 지원 내가 알고있는 Spark SQL 포함 (SQL 기반 구조화 된 데이터 처리 용), 머신 러닝 구현을위한 MLlib, 그래프 처리를위한 GraphX ​​및 Spark Streaming.

Spark SQL은 모듈입니다. 아파치 스파크 구조화 된 데이터 작업에 적합하며 Spark 애플리케이션에서 매우 인기가 있습니다.. Apache Spark의 제작자가 설립 한 Databricks에 따르면 Python 및 Scala 개발자조차도 Spark SQL 엔진으로 많은 작업을 수행합니다.

Spark는 오늘날 빅 데이터 처리, 데이터 과학, 기계 학습 및 데이터 분석을위한 사실상의 프레임 워크입니다.

Apache Spark 3.0 정보

지금 프레임 워크는 버전 3.0입니다. 그리고 가장 중요한 새로운 기능 중에는 Spark 3.0은 두 배 빠릅니다. 무엇보다도 TPC-DS에 의존하여 이전 버전보다.

이 성능 향상은 달성되었습니다 개선을 통해 적응 형 쿼리 실행과 같은, 동적 파티션 정리 및 기타 최적화. ANSI SQL 표준 준수도 향상되었습니다.

Spark 3.0은 3400 개 이상의 티켓이 해결 된 메이저 버전이지만 주요 변경 사항 내에서만 SQL 및 Python의 주요 새로운 기능으로 제한됩니다.

아파치 스파크 3.0 SQL 및 Python에 대한 지원을 크게 개선하여이 위치를 강화합니다. 오늘날 Spark와 함께 가장 널리 사용되는 두 가지 언어이며 모든 수준에서 많은 최적화를 제공합니다.

Python 용 Spark API 인 PySpark는 Python 패키지 색인 인 PyPI에서 월별 다운로드 횟수가 5 백만 회 이상입니다. 많은 Python 개발자 단일 노드 처리로 제한되지만 데이터 분석을 위해 API를 사용합니다.

따라서 파이썬은 Spark 3.0의 핵심 개발 영역입니다. Apache Spark의 API 개발은 분산 환경에서 빅 데이터로 작업 할 때 데이터 과학자의 생산성을 높이기 위해 가속화되었습니다.

Koalas는 많은 기능을 만들 필요가 없습니다. (예 : 그래픽 지원) 클러스터에서 더 나은 성능을 위해 PySpark에서.

지금까지 Spark의 역할은 종종 ETL (Extract Transform Load)의 역할로 제한된다고 말할 수 있습니다.

이로 인해 Python 유형 힌트 및 추가 Pandas UDF (사용자 정의 함수)를 포함하여 API가 특히 크게 개선되었습니다.

Spark 3.0은 더 나은 Python 오류 처리를 제공합니다. 사용자 정의 R 함수에 대한 호출은 최대 40 배 더 빠릅니다.

또한 Spark 3.0에서는 모든 수정 사항의 46 %가 SQL 기능에 대한 것이 었습니다., 성능과 ANSI 호환성이 모두 향상되었습니다.

즉, Spark SQL 엔진에서 가장 중요한 세 가지 새로운 기능은 적응 형 쿼리 실행입니다.

최적화 방법 쿼리는 일반적으로 정적 쿼리 최적화에 중점을 둡니다.

Spark의 저장 및 처리 분리로 인해 데이터 도착을 예측할 수 없습니다. 이러한 이유로 적응 형 쿼리 실행은 기존 시스템보다 Spark에서 더 중요합니다.

릴리스 정보에서 확인할 수있는 다른 많은 기능이 있습니다. 데이터 소스, 에코 시스템, 모니터링, 디버깅 등을 다루는 기능입니다.

출시 노트를 확인할 수 있습니다. 다음 링크로 이동하십시오.

출처 : https://spark.apache.org/


코멘트를 남겨주세요

귀하의 이메일 주소는 공개되지 않습니다. 필수 필드가 표시되어 있습니다 *

*

*

  1. 데이터 책임자 : Miguel Ángel Gatón
  2. 데이터의 목적 : 스팸 제어, 댓글 관리.
  3. 합법성 : 귀하의 동의
  4. 데이터 전달 : 법적 의무에 의한 경우를 제외하고 데이터는 제 XNUMX 자에게 전달되지 않습니다.
  5. 데이터 저장소 : Occentus Networks (EU)에서 호스팅하는 데이터베이스
  6. 권리 : 귀하는 언제든지 귀하의 정보를 제한, 복구 및 삭제할 수 있습니다.