Apache Spark, khung phân tích dữ liệu lớn, được đổi mới lên phiên bản 3.0

Apache Spark là một khuôn khổ điện toán cụm mã nguồn mở cung cấp một giao diện để lập trình cụm hoàn chỉnh với tính năng song song dữ liệu ngầm và khả năng chịu lỗi, mà cơ sở mã của dự án Spark đã được tặng cho Apache Software Foundation, tổ chức chịu trách nhiệm bảo trì nó.

Apache Spark có thể được coi là một hệ thống tính toán cụm có mục đích chung, định hướng tốc độ.

Cung cấp các API trong Java, Scala, Python và R, cộng với cũng cung cấp một công cụ tối ưu hóa hỗ trợ việc thực thi các đồ thị nói chung.

cũng hỗ trợ một bộ công cụ cấp cao phong phú và phong phú trong số đó tôi biết bao gồm Spark SQL (để xử lý dữ liệu có cấu trúc dựa trên SQL), MLlib để triển khai học máy, GraphX để xử lý đồ thị và Spark Streaming.

Spark SQL là mô-đun Apache Spark để làm việc với dữ liệu có cấu trúc và rất phổ biến trong các ứng dụng Spark. Theo Databricks, công ty được thành lập bởi những người tạo ra Apache Spark, ngay cả các nhà phát triển Python và Scala cũng thực hiện phần lớn công việc của họ với công cụ Spark SQL.

Spark ngày nay là khuôn khổ thực tế cho xử lý dữ liệu lớn, khoa học dữ liệu, học máy và phân tích dữ liệu.

Giới thiệu về Apache Spark 3.0

Bây giờ khung ở phiên bản 3.0 của nó và trong số các tính năng mới quan trọng nhất, cần lưu ý rằng Spark 3.0 nhanh gấp đôi so với phiên bản trước bằng cách dựa trên TPC-DS, trong số những phiên bản khác.

Sự gia tăng hiệu suất này đã đạt được thông qua những cải tiến chẳng hạn như chạy các truy vấn thích ứng, cắt bớt các phân vùng động và các tối ưu hóa khác. Việc tuân thủ tiêu chuẩn ANSI SQL cũng đã được cải thiện.

Spark 3.0 là một phiên bản lớn với hơn 3400 vé đã được giải quyết, nhưng trong những thay đổi lớn, chỉ Họ tự giới hạn các tính năng mới chính cho SQL và Python, trong số những tính năng khác.

Apache Tia lửa 3.0 củng cố vị trí này bằng cách cải thiện đáng kể hỗ trợ cho SQL và Python, hai ngôn ngữ được sử dụng rộng rãi nhất với Spark ngày nay và bằng cách cung cấp nhiều tối ưu hóa ở mọi cấp độ.

PySpark, API Spark cho Python, có hơn 5 triệu lượt tải xuống hàng tháng trên PyPI, chỉ mục gói Python. Nhiều nhà phát triển Python Họ sử dụng API để phân tích dữ liệu, mặc dù nó bị giới hạn trong xử lý nút đơn.

Do đó, Python là một lĩnh vực phát triển chính của Spark 3.0. Quá trình phát triển API trên Apache Spark đã được tăng tốc để giúp các nhà khoa học dữ liệu làm việc hiệu quả hơn khi làm việc với dữ liệu lớn trong môi trường phân tán.

Koalas loại bỏ nhu cầu tạo ra nhiều chức năng (ví dụ: hỗ trợ đồ họa) trong PySpark, để có hiệu suất tốt hơn trong một cụm.

Cho đến nay, chúng ta có thể nói rằng vai trò của Spark thường bị giới hạn ở vai trò của một ETL (Tải chuyển đổi trích xuất).

Điều này đặc biệt dẫn đến những cải tiến đáng kể về API, bao gồm các gợi ý về kiểu Python và các UDF gấu trúc bổ sung (hàm do người dùng xác định).

Spark 3.0 cung cấp khả năng xử lý lỗi Python tốt hơn, và các lệnh gọi đến các hàm R do người dùng xác định nhanh hơn tới 40 lần.

Cũng cần lưu ý rằng trong Spark 3.0, 46% trong số tất cả các bản sửa lỗi dành cho chức năng SQL, đã cải thiện cả hiệu suất và khả năng tương thích ANSI.

Điều đó nói rằng, ba tính năng mới quan trọng nhất trong công cụ Spark SQL là thực thi các truy vấn thích ứng.

Các phương pháp tối ưu hóa Các truy vấn thường tập trung vào tối ưu hóa truy vấn tĩnh.

Do sự tách biệt giữa lưu trữ và xử lý trong Spark, việc dữ liệu đến có thể không thể đoán trước được. Vì những lý do này, việc thực thi truy vấn thích ứng trở nên quan trọng hơn đối với Spark so với các hệ thống truyền thống.

Có nhiều tính năng khác mà bạn có thể kiểm tra trong ghi chú phát hành. Các tính năng bao gồm các nguồn dữ liệu, hệ sinh thái, giám sát, gỡ lỗi và hơn thế nữa.

Bạn có thể kiểm tra ghi chú phát hành bằng cách truy cập liên kết sau.

Fuente: https://spark.apache.org/

Để lại bình luận của bạn Hủy trả lời

địa chỉ email của bạn sẽ không được công bố. Các trường bắt buộc được đánh dấu bằng *

chú thích *

tên*

thư điện tử*

Tôi chấp nhận điều khoản riêng tư*

Chịu trách nhiệm về dữ liệu: Miguel Ángel Gatón
Mục đích của dữ liệu: Kiểm soát SPAM, quản lý bình luận.
Hợp pháp: Sự đồng ý của bạn
Truyền thông dữ liệu: Dữ liệu sẽ không được thông báo cho các bên thứ ba trừ khi có nghĩa vụ pháp lý.
Lưu trữ dữ liệu: Cơ sở dữ liệu do Occentus Networks (EU) lưu trữ
Quyền: Bất cứ lúc nào bạn có thể giới hạn, khôi phục và xóa thông tin của mình.

Tôi muốn nhận bản tin

Ubunlog

Apache Spark, khung phân tích dữ liệu lớn được đổi mới lên phiên bản 3.0

Giới thiệu về Apache Spark 3.0

Để lại bình luận của bạn Hủy trả lời