Apache Spark, המסגרת לניתוח נתונים גדולים מתחדשת לגירסה 3.0 שלה

Apache Spark הוא מסגרת מחשוב מקבץ קוד פתוח המספק ממשק לתכנות אשכולות השלם עם מקביליות נתונים מרומזת וסובלנות תקלות, אשר קוד הקוד של פרויקט Spark נתרם לקרן תוכנת אפאצ'י האחראית לתחזוקתו.

אפאצ 'י ספארק יכול להיחשב כמערכת מחשוב אשכולות ייעודית למטרה כללית.

ספק ממשקי API בג'אווה, סקאלה, פייתון ו- R, פלוס מספק גם מנוע מותאם התומך בביצוע גרפים באופן כללי.

גם תומך במערך נרחב ועשיר של כלים ברמה גבוהה ביניהם אני מכיר כוללים ספארק SQL (לעיבוד נתונים מובנים מבוססי SQL), MLlib ליישום למידת מכונה, GraphX ​​לעיבוד גרפים והזרמת ניצוצות.

ניצוץ SQL הוא המודול אפאצ 'י ספארק לעבודה עם נתונים מובנים והוא פופולרי מאוד ביישומי Spark. על פי נתוני Databricks, החברה שהוקמה על ידי יוצרי Apache Spark, אפילו מפתחי Python ו- Scala עושים חלק ניכר מעבודתם עם מנוע ה- Spark SQL.

Spark היא כיום המסגרת בפועל לעיבוד נתונים גדולים, מדעי נתונים, למידת מכונה וניתוח נתונים.

אודות Apache Spark 3.0

עכשיו המסגרת היא בגרסתה 3.0 ובין התכונות החדשות החשובות ביותר, יש לציין כי Spark 3.0 מהיר פי שניים מהגרסה הקודמת על ידי הסתמכות, בין היתר על TPC-DS.

עליית ביצועים זו הושגה באמצעות שיפורים כגון הפעלת שאילתות אדפטיביות, גיזום של מחיצות דינמיות ואופטימיזציות אחרות. שופרה גם התאימות לתקן ANSI SQL.

Spark 3.0 היא גרסה מרכזית עם יותר מ 3400 כרטיסים נפתרו, אך בתוך השינויים העיקריים, בלבד הם מגבילים את עצמם לתכונות החדשות העיקריות עבור SQL ו- Python, בין היתר.

אפאצ'י ספארק 3.0 מחזק עמדה זו על ידי שיפור ניכר בתמיכה ב- SQL ופייתון, שתי השפות הנפוצות ביותר עם Spark כיום ומספקות אופטימיזציות רבות בכל הרמות.

ל- PySpark, ה- API של Spark עבור Python, יש יותר מ -5 מיליון הורדות חודשיות ב- PyPI, אינדקס החבילות של Python. מפתחי פייתון רבים הם משתמשים ב- API לצורך ניתוח נתונים, אם כי הוא מוגבל לעיבוד צומת יחיד.

לפייתון היה, אם כן, אזור מפתח בפיתוח עבור Spark 3.0. פיתוח API ב- Apache Spark הואץ כדי להפוך את מדעני הנתונים לפוריות יותר בעבודה עם נתונים גדולים בסביבות מבוזרות.

קואלות מבטל את הצורך ביצירת פונקציות רבות (למשל תמיכה גרפית) ב- PySpark, לקבלת ביצועים טובים יותר באשכול.

עד כה אנו יכולים לומר שתפקיד ספארק מוגבל לרוב לתפקיד ETL (Extract Transform Load).

בפרט זה מביא לשיפור משמעותי ב- API, כולל רמזים מסוג Python ו- UDFs של פנדות נוספות (פונקציות המוגדרות על ידי המשתמש).

Spark 3.0 מציע טיפול טוב יותר בשגיאות פייתון, ושיחות לפונקציות R המוגדרות על ידי המשתמש מהירות עד פי 40.

כמו כן יש לציין כי ב- Spark 3.0, 46% מכל התיקונים נועדו לפונקציונליות של SQL, אשר שיפרה הן את הביצועים והן את תאימות ANSI.

עם זאת, שלושת התכונות החדשות החשובות ביותר במנוע ה- Spark SQL הן ביצוע שאילתות אדפטיביות.

שיטות האופטימיזציה שאילתות מתמקדות בדרך כלל באופטימיזציה של שאילתות סטטיות.

בשל הפרדת האחסון והעיבוד ב- Spark, הגעת הנתונים יכולה להיות בלתי צפויה. מסיבות אלה, ביצוע שאילתות אדפטיביות הופך קריטי יותר עבור Spark מאשר למערכות מסורתיות.

ישנן תכונות רבות אחרות שתוכל לבדוק בהערות השחרור. תכונות המכסות מקורות נתונים, מערכות אקולוגיות, ניטור, איתור באגים ועוד.

אתה יכול לבדוק את הערת השחרור על ידי מעבר לקישור הבא.

מקור: https://spark.apache.org/


השאירו את התגובה שלכם

כתובת הדוא"ל שלך לא תפורסם. שדות חובה מסומנים *

*

*

  1. אחראי לנתונים: מיגל אנחל גטון
  2. מטרת הנתונים: בקרת ספאם, ניהול תגובות.
  3. לגיטימציה: הסכמתך
  4. מסירת הנתונים: הנתונים לא יועברו לצדדים שלישיים אלא בהתחייבות חוקית.
  5. אחסון נתונים: מסד נתונים המתארח על ידי Occentus Networks (EU)
  6. זכויות: בכל עת תוכל להגביל, לשחזר ולמחוק את המידע שלך.