Apache Spark เป็นกรอบ การประมวลผลคลัสเตอร์แบบโอเพนซอร์ส ซึ่งมีอินเทอร์เฟซสำหรับการเขียนโปรแกรมคลัสเตอร์ พร้อมด้วย Implicit Data Parallelism และ Fault Tolerance ซึ่งโครงการ Spark codebase ได้รับการบริจาคให้กับ Apache Software Foundation ซึ่งรับผิดชอบการบำรุงรักษา
Apache Spark ถือได้ว่าเป็นระบบคอมพิวเตอร์คลัสเตอร์แบบเน้นความเร็วทั่วไป.
จัดเตรียม API ใน Java, Scala, Python และ R บวก ยังมีเครื่องยนต์ที่ดีที่สุด ที่รองรับการทำงานของกราฟโดยทั่วไป
ด้วย รองรับชุดเครื่องมือระดับสูงที่กว้างขวางและหลากหลาย ในหมู่ที่ฉันรู้ รวม Spark SQL (สำหรับการประมวลผลข้อมูลที่มีโครงสร้างตาม SQL), MLlib เพื่อใช้แมชชีนเลิร์นนิง, GraphX สำหรับการประมวลผลกราฟและ Spark Streaming
Spark SQL คือโมดูล Apache Spark สำหรับการทำงานกับข้อมูลที่มีโครงสร้างและเป็นที่นิยมอย่างมากในแอปพลิเคชัน Spark. ตาม Databricks บริษัท ที่ก่อตั้งโดยผู้สร้าง Apache Spark แม้แต่นักพัฒนา Python และ Scala ก็ทำงานส่วนใหญ่กับเอ็นจิ้น Spark SQL
ปัจจุบัน Spark เป็นเฟรมเวิร์กโดยพฤตินัยสำหรับการประมวลผลข้อมูลขนาดใหญ่วิทยาศาสตร์ข้อมูลการเรียนรู้ของเครื่องและการวิเคราะห์ข้อมูล
เกี่ยวกับ Apache Spark 3.0
ขณะนี้ เฟรมเวิร์กอยู่ในเวอร์ชัน 3.0 และในคุณสมบัติใหม่ที่สำคัญที่สุดควรสังเกตว่า Spark 3.0 เร็วขึ้นสองเท่า กว่ารุ่นก่อนหน้าโดยอาศัย TPC-DS และอื่น ๆ
การเพิ่มประสิทธิภาพนี้ทำได้สำเร็จ ผ่านการปรับปรุง เช่นการเรียกใช้การสืบค้นที่ปรับเปลี่ยนได้การตัดพาร์ติชันแบบไดนามิกและการเพิ่มประสิทธิภาพอื่น ๆ การปฏิบัติตามมาตรฐาน ANSI SQL ได้รับการปรับปรุงเช่นกัน
Spark 3.0 เป็นเวอร์ชันหลักที่มีการแก้ไขตั๋วมากกว่า 3400 ใบ แต่ภายในการเปลี่ยนแปลงที่สำคัญเท่านั้น พวกเขา จำกัด ตัวเองเฉพาะคุณสมบัติใหม่หลักสำหรับ SQL และ Python และอื่น ๆ
อาปาเช่ สปาร์ค 3.0 เพิ่มความแข็งแกร่งให้กับตำแหน่งนี้ด้วยการปรับปรุงการรองรับ SQL และ Python อย่างมาก สองภาษาที่ใช้กันอย่างแพร่หลายกับ Spark ในปัจจุบันและด้วยการเพิ่มประสิทธิภาพมากมายในทุกระดับ
PySpark ซึ่งเป็น Spark API สำหรับ Python มีการดาวน์โหลดมากกว่า 5 ล้านครั้งต่อเดือนบน PyPI ซึ่งเป็นดัชนีแพ็คเกจ Python นักพัฒนา Python จำนวนมาก พวกเขาใช้ API สำหรับการวิเคราะห์ข้อมูลแม้ว่าจะ จำกัด เฉพาะการประมวลผลโหนดเดียว
Python จึงเป็น ส่วนสำคัญของการพัฒนา Spark 3.0 การพัฒนา API บน Apache Spark ได้รับการเร่งเพื่อให้นักวิทยาศาสตร์ข้อมูลมีประสิทธิผลมากขึ้นเมื่อทำงานกับข้อมูลขนาดใหญ่ในสภาพแวดล้อมแบบกระจาย
โคอาล่าไม่จำเป็นต้องสร้างฟังก์ชันมากมาย (เช่นการรองรับกราฟิก) ใน PySpark เพื่อประสิทธิภาพที่ดีขึ้นในคลัสเตอร์
จนถึงตอนนี้เราสามารถพูดได้ว่าบทบาทของ Spark มักถูก จำกัด ไว้ที่ ETL (Extract Transform Load)
สิ่งนี้ส่งผลให้มีการปรับปรุงที่สำคัญโดยเฉพาะสำหรับ API รวมถึงคำแนะนำประเภท Python และ UDF ของแพนด้าเพิ่มเติม (ฟังก์ชันที่ผู้ใช้กำหนดเอง)
Spark 3.0 ให้การจัดการข้อผิดพลาด Python ที่ดีขึ้น และการเรียกใช้ฟังก์ชัน R ที่ผู้ใช้กำหนดได้เร็วขึ้นถึง 40 เท่า
นอกจากนี้ควรสังเกตด้วยว่าใน Spark 3.0 46% ของการแก้ไขทั้งหมดเป็นสำหรับฟังก์ชัน SQLซึ่งปรับปรุงทั้งประสิทธิภาพและความเข้ากันได้ของ ANSI
ที่กล่าวว่า " คุณลักษณะใหม่ที่สำคัญที่สุดสามประการในเอ็นจิ้น Spark SQL คือการดำเนินการสืบค้นแบบปรับ
วิธีการเพิ่มประสิทธิภาพ โดยทั่วไปการสืบค้นจะมุ่งเน้นไปที่การเพิ่มประสิทธิภาพการสืบค้นแบบคงที่
เนื่องจากการแยกการจัดเก็บและการประมวลผลใน Spark การมาถึงของข้อมูลจึงไม่สามารถคาดเดาได้ ด้วยเหตุผลเหล่านี้การดำเนินการสืบค้นแบบปรับเปลี่ยนจึงมีความสำคัญสำหรับ Spark มากกว่าระบบแบบเดิม
มีคุณสมบัติอื่น ๆ อีกมากมายที่คุณสามารถดูได้ในบันทึกประจำรุ่น คุณลักษณะที่ครอบคลุมแหล่งข้อมูลระบบนิเวศการตรวจสอบการดีบักและอื่น ๆ
คุณสามารถตรวจสอบบันทึกประจำรุ่น โดยไปที่ลิงค์ต่อไปนี้
Fuente: https://spark.apache.org/