अपाचे स्पार्क, मोठा डेटा विश्लेषण फ्रेमवर्क त्याच्या आवृत्ती 3.0 वर नूतनीकरण केला आहे

अपाचे स्पार्क ही एक चौकट आहे ओपन सोर्स क्लस्टर कंप्यूटिंग जे क्लस्टर प्रोग्रामिंगसाठी इंटरफेस प्रदान करते इंप्लिक्ट डेटा पॅरलॅलिझम आणि फॉल्ट टॉलरन्ससह पूर्ण करा, जे स्पार्क प्रोजेक्ट कोडबेस अपाचे सॉफ्टवेअर फाऊंडेशनला देणगी देण्यात आले जे त्याच्या देखभालीसाठी जबाबदार आहे.

अपाचे स्पार्क सामान्य हेतू, वेग-देणार्या क्लस्टर कंप्यूटिंग सिस्टम मानले जाऊ शकते.

एपीआय प्रदान करा जावा, स्काला, पायथन आणि आर मध्ये अधिक ऑप्टिमाइझ्ड इंजिन देखील प्रदान करते जे सर्वसाधारणपणे आलेखाच्या अंमलबजावणीस समर्थन देते.

तसेच उच्च-स्तरीय साधनांच्या विस्तृत आणि समृद्ध सेटचे समर्थन करते ज्यापैकी मला माहित आहे स्पार्क एस क्यू एल समाविष्ट करा (एसक्यूएल-आधारित संरचित डेटा प्रक्रियेसाठी), मशीन लर्निंगची अंमलबजावणी करण्यासाठी एमएललिब, आलेख प्रक्रियेसाठी ग्राफिक्स आणि स्पार्क स्ट्रीमिंग.

स्पार्क एस क्यू एल मॉड्यूल आहे अपाचे स्पार्क संरचित डेटासह कार्य करण्यासाठी आणि स्पार्क अनुप्रयोगांमध्ये खूप लोकप्रिय आहे. डेटाबे्रिक्सच्या मते, अपाचे स्पार्कच्या निर्मात्यांनी स्थापन केलेली कंपनी, अगदी पायथन आणि स्काला विकसक स्पार्क एसक्यूएल इंजिनद्वारे त्यांचे बरेच काम करतात.

बिग डेटा प्रोसेसिंग, डेटा सायन्स, मशीन लर्निंग आणि डेटा अ‍ॅनालिटिक्ससाठी स्पार्क ही आजची वास्तविक चौकट आहे.

अपाचे स्पार्क 3.0 बद्दल

सध्या फ्रेमवर्क त्याच्या आवृत्ती 3.0 मध्ये आहे आणि सर्वात महत्वाच्या नवीन वैशिष्ट्यांपैकी हे देखील लक्षात घेतले पाहिजे स्पार्क 3.0 दुप्पट वेगवान आहे आधीच्या टीपीसी-डीएसवर अवलंबून असलेल्या आवृत्तीपेक्षा

ही कामगिरी वाढ गाठली गेली सुधारणा माध्यमातून जसे की अ‍ॅडॉप्टिव्ह क्वेरी चालविणे, डायनॅमिक विभाजने आणि इतर ऑप्टिमायझेशनची छाटणी. एएनएसआय एसक्यूएल मानकांचे अनुपालन देखील सुधारित केले आहे.

स्पार्क .० ही version 3.0०० हून अधिक तिकिटांचे निराकरण झालेली एक मोठी आवृत्ती आहे, परंतु केवळ मोठ्या बदलांमध्ये ते इतरांमध्ये एसक्यूएल आणि पायथनसाठी मुख्य नवीन वैशिष्ट्यांपर्यंत स्वत: ला मर्यादित करतात.

अपाचे स्पार्क 3.0 एसक्यूएल आणि पायथनसाठी समर्थन मोठ्या प्रमाणात सुधारवून या स्थितीस मजबूत करते, आज स्पार्कसह आणि सर्व स्तरांवर बर्‍याच ऑप्टिमायझेशन प्रदान करून मोठ्या प्रमाणात वापरल्या जाणार्‍या दोन भाषा.

पायथनसाठी स्पार्क एपीआय पायस्पर्ककडे पायथन पॅकेज इंडेक्स पायपीआय वर 5 दशलक्षाहून अधिक मासिक डाउनलोड आहेत. बरेच पायथन विकसक ते डेटा विश्लेषणासाठी एपीआय वापरतात, जरी ते फक्त एकल नोड प्रक्रियेपुरते मर्यादित असते.

अजगर, म्हणून, स्पार्क for.० साठी विकासाचे मुख्य क्षेत्र. वितरित वातावरणात मोठ्या डेटासह कार्य करताना डेटा वैज्ञानिकांना अधिक उत्पादक बनविण्यासाठी अपाचे स्पार्कवरील एपीआय विकासास वेग आला आहे.

कोआलास अनेक कार्ये तयार करण्याची आवश्यकता काढून टाकते क्लस्टरमध्ये चांगल्या कामगिरीसाठी पायस्पर्कमध्ये (उदा. ग्राफिक्स समर्थन).

आतापर्यंत आम्ही असे म्हणू शकतो की स्पार्कची भूमिका बहुतेकदा ईटीएल (एक्सट्रॅक्ट ट्रान्सफॉर्म लोड) पर्यंत मर्यादित असते.

विशेषत: पायथन प्रकारातील सूचना आणि अतिरिक्त पांडा यूडीएफ (वापरकर्त्याद्वारे परिभाषित कार्ये) यासह महत्त्वपूर्ण एपीआय सुधारणांमध्ये याचा परिणाम होतो.

स्पार्क .० अधिक पायथन एरर हँडलिंग ऑफर करते, आणि वापरकर्त्याने परिभाषित आर फंक्शन्सवर कॉल करणे 40 पट वेगवान आहे.

हे देखील लक्षात घेतले पाहिजे की स्पार्क in.० मध्ये, सर्व निराकरणांपैकी 46% एसक्यूएल कार्यक्षमतेसाठी होते, ज्याने कार्यप्रदर्शन आणि एएनएसआय सुसंगतता सुधारित केली आहे.

ते म्हणाले, स्पार्क एसक्यूएल इंजिनमधील तीन सर्वात महत्वाची नवीन वैशिष्ट्ये म्हणजे अनुकूलक क्वेरीची अंमलबजावणी.

ऑप्टिमायझेशन पद्धती क्वेरी सामान्यत: स्थिर क्वेरी ऑप्टिमायझेशनवर केंद्रित करतात.

स्पार्कमध्ये स्टोरेज आणि प्रक्रियेच्या पृथक्करणामुळे डेटाची आगमन अंदाजे असू शकते. या कारणांमुळे पारंपारिक प्रणालींपेक्षा स्पार्कसाठी अनुकूलक क्वेरी अंमलबजावणी अधिक महत्त्वपूर्ण होते.

इतर अनेक वैशिष्ट्ये आहेत ज्या आपण रीलिझ नोट्समध्ये तपासू शकता. डेटा स्त्रोत, परिसंस्था, देखरेख, डीबगिंग आणि बरेच काही समाविष्ट करणारे वैशिष्ट्ये.

आपण रीलिझ नोट पाहू शकता पुढील लिंकवर जाऊन.

स्त्रोत: https://spark.apache.org/


टिप्पणी करणारे सर्वप्रथम व्हा

आपली टिप्पणी द्या

आपला ई-मेल पत्ता प्रकाशित केला जाणार नाही. आवश्यक फील्ड चिन्हांकित केले आहेत *

*

*

  1. डेटा जबाबदार: मिगुएल Áन्गल गॅटन
  2. डेटाचा उद्देशः नियंत्रण स्पॅम, टिप्पणी व्यवस्थापन.
  3. कायदे: आपली संमती
  4. डेटा संप्रेषण: कायदेशीर बंधन वगळता डेटा तृतीय पक्षास कळविला जाणार नाही.
  5. डेटा संग्रहण: ओकेन्टस नेटवर्क (EU) द्वारा होस्ट केलेला डेटाबेस
  6. अधिकारः कोणत्याही वेळी आपण आपली माहिती मर्यादित, पुनर्प्राप्त आणि हटवू शकता.