અપાચે સ્પાર્ક, મોટા ડેટા વિશ્લેષણનું માળખું તેની આવૃત્તિ 3.0 પર નવીકરણ કરે છે

અપાચે સ્પાર્ક એક માળખું છે ઓપન સોર્સ ક્લસ્ટર કમ્પ્યુટિંગ જે ક્લસ્ટર પ્રોગ્રામિંગ માટે ઇંટરફેસ પ્રદાન કરે છે ઇમ્પ્લિકેટ ડેટા સમાંતર અને દોષ સહનશીલતા સાથે પૂર્ણ કરો, જે સ્પાર્ક પ્રોજેક્ટ કોડબેસ અપાચે સ Softwareફ્ટવેર ફાઉન્ડેશનને દાન કરવામાં આવ્યું હતું જે તેના જાળવણી માટે જવાબદાર છે.

અપાચે સ્પાર્ક સામાન્ય હેતુ, ગતિ-લક્ષી ક્લસ્ટર કમ્પ્યુટિંગ સિસ્ટમ તરીકે ગણી શકાય.

API પ્રદાન કરો જાવા, સ્કેલા, પાયથોન અને આર, વત્તા anપ્ટિમાઇઝ એન્જિન પણ પ્રદાન કરે છે જે સામાન્ય રીતે ગ્રાફના અમલને ટેકો આપે છે.

પણ ઉચ્ચ-સ્તરનાં સાધનોના વ્યાપક અને સમૃદ્ધ સમૂહને ટેકો આપે છે જેની વચ્ચે હું જાણું છું સ્પાર્ક એસક્યુએલ શામેલ છે (એસક્યુએલ આધારિત સ્ટ્રક્ચર્ડ ડેટા પ્રોસેસિંગ માટે), મશીન લર્નિંગને અમલમાં મૂકવા માટે એમએલલિબ, ગ્રાફ પ્રોસેસિંગ માટે ગ્રાફએક્સ અને સ્પાર્ક સ્ટ્રીમિંગ.

સ્પાર્ક એસક્યુએલ એ મોડ્યુલ છે અપાચે સ્પાર્ક સ્ટ્રક્ચર્ડ ડેટા સાથે કામ કરવા માટે અને સ્પાર્ક એપ્લિકેશનમાં ખૂબ લોકપ્રિય છે. ડેટાબેક્સ અનુસાર, અપાચે સ્પાર્કના નિર્માતાઓ દ્વારા સ્થાપિત કંપની, પાયથોન અને સ્કેલા વિકાસકર્તાઓ સ્પાર્ક એસક્યુએલ એન્જિનથી તેમનું મોટાભાગનું કાર્ય કરે છે.

મોટા ડેટા પ્રોસેસિંગ, ડેટા સાયન્સ, મશીન લર્નિંગ અને ડેટા એનાલિટિક્સ માટે સ્પાર્ક આજે ડે ફેક્ટો ફ્રેમવર્ક છે.

અપાચે સ્પાર્ક 3.0 વિશે

હાલમાં આ માળખું તેની આવૃત્તિ 3.0 માં છે અને સૌથી મહત્વપૂર્ણ નવી સુવિધાઓમાં, તે નોંધવું જોઈએ સ્પાર્ક. એ બમણું ઝડપી છે બીજાઓ વચ્ચે, TPC-DS પર આધાર રાખીને પહેલાનાં સંસ્કરણ કરતા.

આ પ્રભાવ વધારો પ્રાપ્ત થયો હતો સુધારાઓ દ્વારા જેમ કે અનુકૂલનશીલ ક્વેરીઝ ચલાવવા, ગતિશીલ પાર્ટીશનો અને અન્ય optimપ્ટિમાઇઝેશનની કાપણી. એએનએસઆઈ એસક્યુએલ ધોરણ સાથેનું પાલન પણ સુધારવામાં આવ્યું છે.

સ્પાર્ક 3.0.૦ એ મુખ્ય સંસ્કરણ છે, જેમાં 3400 XNUMX૦૦ થી વધુ ટિકિટો ઉકેલાઈ છે, પરંતુ ફક્ત મોટા ફેરફારોમાં, તેઓ પોતાને અન્ય લોકોમાં એસક્યુએલ અને પાયથોન માટેની મુખ્ય નવી સુવિધાઓ સુધી મર્યાદિત કરે છે.

અપાચે સ્પાર્ક 3.0 એસક્યુએલ અને પાયથોન માટેના સમર્થનમાં મોટા પ્રમાણમાં સુધારો કરીને આ સ્થિતિને મજબૂત બનાવે છે, આજે સ્પાર્ક સાથેની બે સૌથી વધુ ઉપયોગમાં લેવામાં આવતી ભાષાઓ અને તમામ સ્તરે ઘણા optimપ્ટિમાઇઝેશન પ્રદાન કરે છે.

પાયથોન માટે સ્પાર્ક એપીઆઇ, પાયસ્કાર્ક, પાયથોન પેકેજ અનુક્રમણિકા, પાઇપીઆઈ પર 5 મિલિયનથી વધુ માસિક ડાઉનલોડ્સ ધરાવે છે. ઘણા પાયથોન વિકાસકર્તાઓ તેઓ ડેટા વિશ્લેષણ માટે API નો ઉપયોગ કરે છે, જો કે તે સિંગલ નોડ પ્રોસેસિંગ પૂરતું મર્યાદિત છે.

પાયથોન તેથી હતો, સ્પાર્ક for.૦ માટે વિકાસનો મુખ્ય ક્ષેત્ર. વિતરિત વાતાવરણમાં મોટા ડેટા સાથે કામ કરતી વખતે ડેટા વૈજ્ .ાનિકોને વધુ ઉત્પાદક બનાવવા માટે અપાચે સ્પાર્ક પર એપીઆઈ વિકાસને વેગ મળ્યો છે.

કોઆલાસ ઘણા કાર્યો બનાવવાની જરૂરિયાતને દૂર કરે છે ક્લસ્ટરમાં સારા પ્રદર્શન માટે, PySpark માં (દા.ત. ગ્રાફિક્સ સપોર્ટ).

અત્યાર સુધી, અમે કહી શકીએ કે સ્પાર્કની ભૂમિકા ઘણીવાર ઇટીએલ (એક્સ્ટ્રેક્ટ ટ્રાન્સફોર્મ લોડ) ની મર્યાદિત હોય છે.

પાયથોન પ્રકારનાં સંકેતો અને અતિરિક્ત પાંડા યુડીએફ (વપરાશકર્તા દ્વારા નિર્ધારિત કાર્યો) સહિતના નોંધપાત્ર એપીઆઇ સુધારણાના આમાં ખાસ પરિણામ આવે છે.

સ્પાર્ક. વધુ સારી રીતે પાયથોન એરર હેન્ડલિંગની offersફર કરે છે, અને વપરાશકર્તા-નિર્ધારિત આર કાર્યો માટેના ક callsલ્સ 40 ગણા ઝડપી છે.

તે પણ ધ્યાનમાં લેવું જોઈએ કે સ્પાર્ક in. in માં, 46% તમામ સુધારાઓ એસક્યુએલ કાર્યક્ષમતા માટે હતાછે, જેણે કામગીરી અને એએનએસઆઈ સુસંગતતા બંનેમાં સુધારો કર્યો છે.

તે કહ્યું, સ્પાર્ક એસક્યુએલ એન્જિનમાં ત્રણ સૌથી મહત્વપૂર્ણ નવી સુવિધાઓ એ અનુકૂલનશીલ ક્વેરીઝનું અમલ છે.

.પ્ટિમાઇઝેશન પદ્ધતિઓ ક્વેરીઝ સામાન્ય રીતે સ્થિર ક્વેરી optimપ્ટિમાઇઝેશન પર ધ્યાન કેન્દ્રિત કરે છે.

સ્પાર્કમાં સ્ટોરેજ અને પ્રોસેસિંગના અલગ થવાને કારણે, ડેટાનું આગમન અણધારી હોઈ શકે છે. આ કારણોસર, અનુકૂલનશીલ ક્વેરી એક્ઝેક્યુશન પરંપરાગત સિસ્ટમો કરતાં સ્પાર્ક માટે વધુ નિર્ણાયક બને છે.

એવી ઘણી અન્ય સુવિધાઓ છે જે તમે પ્રકાશન નોંધોમાં ચકાસી શકો છો. ડેટા સ્રોતો, ઇકોસિસ્ટમ્સ, મોનિટરિંગ, ડિબગિંગ અને વધુને આવરી લેતી સુવિધાઓ.

તમે પ્રકાશન નોંધ ચકાસી શકો છો નીચેની લીંક પર જઈને.

સ્રોત: https://spark.apache.org/


તમારી ટિપ્પણી મૂકો

તમારું ઇમેઇલ સરનામું પ્રકાશિત કરવામાં આવશે નહીં. આવશ્યક ક્ષેત્રો સાથે ચિહ્નિત થયેલ છે *

*

*

  1. ડેટા માટે જવાબદાર: મિગ્યુએલ gelંજેલ ગેટóન
  2. ડેટાનો હેતુ: નિયંત્રણ સ્પામ, ટિપ્પણી સંચાલન.
  3. કાયદો: તમારી સંમતિ
  4. ડેટાની વાતચીત: કાયદાકીય જવાબદારી સિવાય ડેટા તૃતીય પક્ષને આપવામાં આવશે નહીં.
  5. ડેટા સ્ટોરેજ: cસેન્ટસ નેટવર્ક્સ (ઇયુ) દ્વારા હોસ્ટ કરેલો ડેટાબેઝ
  6. અધિકાર: કોઈપણ સમયે તમે તમારી માહિતીને મર્યાદિત, પુન recoverપ્રાપ્ત અને કા deleteી શકો છો.