Apache Spark กรอบการวิเคราะห์ข้อมูลขนาดใหญ่ได้รับการต่ออายุเป็นเวอร์ชัน 3.0

Apache Spark เป็นกรอบ การประมวลผลคลัสเตอร์แบบโอเพนซอร์ส ซึ่งมีอินเทอร์เฟซสำหรับการเขียนโปรแกรมคลัสเตอร์ พร้อมด้วย Implicit Data Parallelism และ Fault Tolerance ซึ่งโครงการ Spark codebase ได้รับการบริจาคให้กับ Apache Software Foundation ซึ่งรับผิดชอบการบำรุงรักษา

Apache Spark ถือได้ว่าเป็นระบบคอมพิวเตอร์คลัสเตอร์แบบเน้นความเร็วทั่วไป.

จัดเตรียม API ใน Java, Scala, Python และ R บวก ยังมีเครื่องยนต์ที่ดีที่สุด ที่รองรับการทำงานของกราฟโดยทั่วไป

ด้วย รองรับชุดเครื่องมือระดับสูงที่กว้างขวางและหลากหลาย ในหมู่ที่ฉันรู้ รวม Spark SQL (สำหรับการประมวลผลข้อมูลที่มีโครงสร้างตาม SQL), MLlib เพื่อใช้แมชชีนเลิร์นนิง, GraphX ​​สำหรับการประมวลผลกราฟและ Spark Streaming

Spark SQL คือโมดูล Apache Spark สำหรับการทำงานกับข้อมูลที่มีโครงสร้างและเป็นที่นิยมอย่างมากในแอปพลิเคชัน Spark. ตาม Databricks บริษัท ที่ก่อตั้งโดยผู้สร้าง Apache Spark แม้แต่นักพัฒนา Python และ Scala ก็ทำงานส่วนใหญ่กับเอ็นจิ้น Spark SQL

ปัจจุบัน Spark เป็นเฟรมเวิร์กโดยพฤตินัยสำหรับการประมวลผลข้อมูลขนาดใหญ่วิทยาศาสตร์ข้อมูลการเรียนรู้ของเครื่องและการวิเคราะห์ข้อมูล

เกี่ยวกับ Apache Spark 3.0

ขณะนี้ เฟรมเวิร์กอยู่ในเวอร์ชัน 3.0 และในคุณสมบัติใหม่ที่สำคัญที่สุดควรสังเกตว่า Spark 3.0 เร็วขึ้นสองเท่า กว่ารุ่นก่อนหน้าโดยอาศัย TPC-DS และอื่น ๆ

การเพิ่มประสิทธิภาพนี้ทำได้สำเร็จ ผ่านการปรับปรุง เช่นการเรียกใช้การสืบค้นที่ปรับเปลี่ยนได้การตัดพาร์ติชันแบบไดนามิกและการเพิ่มประสิทธิภาพอื่น ๆ การปฏิบัติตามมาตรฐาน ANSI SQL ได้รับการปรับปรุงเช่นกัน

Spark 3.0 เป็นเวอร์ชันหลักที่มีการแก้ไขตั๋วมากกว่า 3400 ใบ แต่ภายในการเปลี่ยนแปลงที่สำคัญเท่านั้น พวกเขา จำกัด ตัวเองเฉพาะคุณสมบัติใหม่หลักสำหรับ SQL และ Python และอื่น ๆ

อาปาเช่ สปาร์ค 3.0 เพิ่มความแข็งแกร่งให้กับตำแหน่งนี้ด้วยการปรับปรุงการรองรับ SQL และ Python อย่างมาก สองภาษาที่ใช้กันอย่างแพร่หลายกับ Spark ในปัจจุบันและด้วยการเพิ่มประสิทธิภาพมากมายในทุกระดับ

PySpark ซึ่งเป็น Spark API สำหรับ Python มีการดาวน์โหลดมากกว่า 5 ล้านครั้งต่อเดือนบน PyPI ซึ่งเป็นดัชนีแพ็คเกจ Python นักพัฒนา Python จำนวนมาก พวกเขาใช้ API สำหรับการวิเคราะห์ข้อมูลแม้ว่าจะ จำกัด เฉพาะการประมวลผลโหนดเดียว

Python จึงเป็น ส่วนสำคัญของการพัฒนา Spark 3.0 การพัฒนา API บน Apache Spark ได้รับการเร่งเพื่อให้นักวิทยาศาสตร์ข้อมูลมีประสิทธิผลมากขึ้นเมื่อทำงานกับข้อมูลขนาดใหญ่ในสภาพแวดล้อมแบบกระจาย

โคอาล่าไม่จำเป็นต้องสร้างฟังก์ชันมากมาย (เช่นการรองรับกราฟิก) ใน PySpark เพื่อประสิทธิภาพที่ดีขึ้นในคลัสเตอร์

จนถึงตอนนี้เราสามารถพูดได้ว่าบทบาทของ Spark มักถูก จำกัด ไว้ที่ ETL (Extract Transform Load)

สิ่งนี้ส่งผลให้มีการปรับปรุงที่สำคัญโดยเฉพาะสำหรับ API รวมถึงคำแนะนำประเภท Python และ UDF ของแพนด้าเพิ่มเติม (ฟังก์ชันที่ผู้ใช้กำหนดเอง)

Spark 3.0 ให้การจัดการข้อผิดพลาด Python ที่ดีขึ้น และการเรียกใช้ฟังก์ชัน R ที่ผู้ใช้กำหนดได้เร็วขึ้นถึง 40 เท่า

นอกจากนี้ควรสังเกตด้วยว่าใน Spark 3.0 46% ของการแก้ไขทั้งหมดเป็นสำหรับฟังก์ชัน SQLซึ่งปรับปรุงทั้งประสิทธิภาพและความเข้ากันได้ของ ANSI

ที่กล่าวว่า " คุณลักษณะใหม่ที่สำคัญที่สุดสามประการในเอ็นจิ้น Spark SQL คือการดำเนินการสืบค้นแบบปรับ

วิธีการเพิ่มประสิทธิภาพ โดยทั่วไปการสืบค้นจะมุ่งเน้นไปที่การเพิ่มประสิทธิภาพการสืบค้นแบบคงที่

เนื่องจากการแยกการจัดเก็บและการประมวลผลใน Spark การมาถึงของข้อมูลจึงไม่สามารถคาดเดาได้ ด้วยเหตุผลเหล่านี้การดำเนินการสืบค้นแบบปรับเปลี่ยนจึงมีความสำคัญสำหรับ Spark มากกว่าระบบแบบเดิม

มีคุณสมบัติอื่น ๆ อีกมากมายที่คุณสามารถดูได้ในบันทึกประจำรุ่น คุณลักษณะที่ครอบคลุมแหล่งข้อมูลระบบนิเวศการตรวจสอบการดีบักและอื่น ๆ

คุณสามารถตรวจสอบบันทึกประจำรุ่น โดยไปที่ลิงค์ต่อไปนี้

Fuente: https://spark.apache.org/


แสดงความคิดเห็นของคุณ

อีเมล์ของคุณจะไม่ถูกเผยแพร่ ช่องที่ต้องการถูกทำเครื่องหมายด้วย *

*

*

  1. ผู้รับผิดชอบข้อมูล: Miguel ÁngelGatón
  2. วัตถุประสงค์ของข้อมูล: ควบคุมสแปมการจัดการความคิดเห็น
  3. ถูกต้องตามกฎหมาย: ความยินยอมของคุณ
  4. การสื่อสารข้อมูล: ข้อมูลจะไม่ถูกสื่อสารไปยังบุคคลที่สามยกเว้นตามข้อผูกพันทางกฎหมาย
  5. การจัดเก็บข้อมูล: ฐานข้อมูลที่โฮสต์โดย Occentus Networks (EU)
  6. สิทธิ์: คุณสามารถ จำกัด กู้คืนและลบข้อมูลของคุณได้ตลอดเวลา