Apache Spark는 프레임 워크입니다. 오픈 소스 클러스터 컴퓨팅 클러스터 프로그래밍을위한 인터페이스를 제공합니다. Implicit Data Parallelism 및 Fault Tolerance로 완성되며 Spark 프로젝트 코드베이스는 유지 관리를 담당하는 Apache Software Foundation에 기부되었습니다.
아파치 스파크 범용, 속도 지향 클러스터 컴퓨팅 시스템으로 간주 될 수 있습니다..
API 제공 Java, Scala, Python 및 R에서 또한 최적화 된 엔진을 제공합니다 일반적으로 그래프 실행을 지원합니다.
또한 광범위하고 풍부한 고급 도구 세트 지원 내가 알고있는 Spark SQL 포함 (SQL 기반 구조화 된 데이터 처리 용), 머신 러닝 구현을위한 MLlib, 그래프 처리를위한 GraphX 및 Spark Streaming.
Spark SQL은 모듈입니다. 아파치 스파크 구조화 된 데이터 작업에 적합하며 Spark 애플리케이션에서 매우 인기가 있습니다.. Apache Spark의 제작자가 설립 한 Databricks에 따르면 Python 및 Scala 개발자조차도 Spark SQL 엔진으로 많은 작업을 수행합니다.
Spark는 오늘날 빅 데이터 처리, 데이터 과학, 기계 학습 및 데이터 분석을위한 사실상의 프레임 워크입니다.
Apache Spark 3.0 정보
지금 프레임 워크는 버전 3.0입니다. 그리고 가장 중요한 새로운 기능 중에는 Spark 3.0은 두 배 빠릅니다. 무엇보다도 TPC-DS에 의존하여 이전 버전보다.
이 성능 향상은 달성되었습니다 개선을 통해 적응 형 쿼리 실행과 같은, 동적 파티션 정리 및 기타 최적화. ANSI SQL 표준 준수도 향상되었습니다.
Spark 3.0은 3400 개 이상의 티켓이 해결 된 메이저 버전이지만 주요 변경 사항 내에서만 SQL 및 Python의 주요 새로운 기능으로 제한됩니다.
아파치 스파크 3.0 SQL 및 Python에 대한 지원을 크게 개선하여이 위치를 강화합니다. 오늘날 Spark와 함께 가장 널리 사용되는 두 가지 언어이며 모든 수준에서 많은 최적화를 제공합니다.
Python 용 Spark API 인 PySpark는 Python 패키지 색인 인 PyPI에서 월별 다운로드 횟수가 5 백만 회 이상입니다. 많은 Python 개발자 단일 노드 처리로 제한되지만 데이터 분석을 위해 API를 사용합니다.
따라서 파이썬은 Spark 3.0의 핵심 개발 영역입니다. Apache Spark의 API 개발은 분산 환경에서 빅 데이터로 작업 할 때 데이터 과학자의 생산성을 높이기 위해 가속화되었습니다.
Koalas는 많은 기능을 만들 필요가 없습니다. (예 : 그래픽 지원) 클러스터에서 더 나은 성능을 위해 PySpark에서.
지금까지 Spark의 역할은 종종 ETL (Extract Transform Load)의 역할로 제한된다고 말할 수 있습니다.
이로 인해 Python 유형 힌트 및 추가 Pandas UDF (사용자 정의 함수)를 포함하여 API가 특히 크게 개선되었습니다.
Spark 3.0은 더 나은 Python 오류 처리를 제공합니다. 사용자 정의 R 함수에 대한 호출은 최대 40 배 더 빠릅니다.
또한 Spark 3.0에서는 모든 수정 사항의 46 %가 SQL 기능에 대한 것이 었습니다., 성능과 ANSI 호환성이 모두 향상되었습니다.
즉, Spark SQL 엔진에서 가장 중요한 세 가지 새로운 기능은 적응 형 쿼리 실행입니다.
최적화 방법 쿼리는 일반적으로 정적 쿼리 최적화에 중점을 둡니다.
Spark의 저장 및 처리 분리로 인해 데이터 도착을 예측할 수 없습니다. 이러한 이유로 적응 형 쿼리 실행은 기존 시스템보다 Spark에서 더 중요합니다.
릴리스 정보에서 확인할 수있는 다른 많은 기능이 있습니다. 데이터 소스, 에코 시스템, 모니터링, 디버깅 등을 다루는 기능입니다.
출시 노트를 확인할 수 있습니다. 다음 링크로 이동하십시오.
출처 : https://spark.apache.org/