અપાચે સ્પાર્ક એક માળખું છે ઓપન સોર્સ ક્લસ્ટર કમ્પ્યુટિંગ જે ક્લસ્ટર પ્રોગ્રામિંગ માટે ઇંટરફેસ પ્રદાન કરે છે ઇમ્પ્લિકેટ ડેટા સમાંતર અને દોષ સહનશીલતા સાથે પૂર્ણ કરો, જે સ્પાર્ક પ્રોજેક્ટ કોડબેસ અપાચે સ Softwareફ્ટવેર ફાઉન્ડેશનને દાન કરવામાં આવ્યું હતું જે તેના જાળવણી માટે જવાબદાર છે.
અપાચે સ્પાર્ક સામાન્ય હેતુ, ગતિ-લક્ષી ક્લસ્ટર કમ્પ્યુટિંગ સિસ્ટમ તરીકે ગણી શકાય.
API પ્રદાન કરો જાવા, સ્કેલા, પાયથોન અને આર, વત્તા anપ્ટિમાઇઝ એન્જિન પણ પ્રદાન કરે છે જે સામાન્ય રીતે ગ્રાફના અમલને ટેકો આપે છે.
પણ ઉચ્ચ-સ્તરનાં સાધનોના વ્યાપક અને સમૃદ્ધ સમૂહને ટેકો આપે છે જેની વચ્ચે હું જાણું છું સ્પાર્ક એસક્યુએલ શામેલ છે (એસક્યુએલ આધારિત સ્ટ્રક્ચર્ડ ડેટા પ્રોસેસિંગ માટે), મશીન લર્નિંગને અમલમાં મૂકવા માટે એમએલલિબ, ગ્રાફ પ્રોસેસિંગ માટે ગ્રાફએક્સ અને સ્પાર્ક સ્ટ્રીમિંગ.
સ્પાર્ક એસક્યુએલ એ મોડ્યુલ છે અપાચે સ્પાર્ક સ્ટ્રક્ચર્ડ ડેટા સાથે કામ કરવા માટે અને સ્પાર્ક એપ્લિકેશનમાં ખૂબ લોકપ્રિય છે. ડેટાબેક્સ અનુસાર, અપાચે સ્પાર્કના નિર્માતાઓ દ્વારા સ્થાપિત કંપની, પાયથોન અને સ્કેલા વિકાસકર્તાઓ સ્પાર્ક એસક્યુએલ એન્જિનથી તેમનું મોટાભાગનું કાર્ય કરે છે.
મોટા ડેટા પ્રોસેસિંગ, ડેટા સાયન્સ, મશીન લર્નિંગ અને ડેટા એનાલિટિક્સ માટે સ્પાર્ક આજે ડે ફેક્ટો ફ્રેમવર્ક છે.
અપાચે સ્પાર્ક 3.0 વિશે
હાલમાં આ માળખું તેની આવૃત્તિ 3.0 માં છે અને સૌથી મહત્વપૂર્ણ નવી સુવિધાઓમાં, તે નોંધવું જોઈએ સ્પાર્ક. એ બમણું ઝડપી છે બીજાઓ વચ્ચે, TPC-DS પર આધાર રાખીને પહેલાનાં સંસ્કરણ કરતા.
આ પ્રભાવ વધારો પ્રાપ્ત થયો હતો સુધારાઓ દ્વારા જેમ કે અનુકૂલનશીલ ક્વેરીઝ ચલાવવા, ગતિશીલ પાર્ટીશનો અને અન્ય optimપ્ટિમાઇઝેશનની કાપણી. એએનએસઆઈ એસક્યુએલ ધોરણ સાથેનું પાલન પણ સુધારવામાં આવ્યું છે.
સ્પાર્ક 3.0.૦ એ મુખ્ય સંસ્કરણ છે, જેમાં 3400 XNUMX૦૦ થી વધુ ટિકિટો ઉકેલાઈ છે, પરંતુ ફક્ત મોટા ફેરફારોમાં, તેઓ પોતાને અન્ય લોકોમાં એસક્યુએલ અને પાયથોન માટેની મુખ્ય નવી સુવિધાઓ સુધી મર્યાદિત કરે છે.
અપાચે સ્પાર્ક 3.0 એસક્યુએલ અને પાયથોન માટેના સમર્થનમાં મોટા પ્રમાણમાં સુધારો કરીને આ સ્થિતિને મજબૂત બનાવે છે, આજે સ્પાર્ક સાથેની બે સૌથી વધુ ઉપયોગમાં લેવામાં આવતી ભાષાઓ અને તમામ સ્તરે ઘણા optimપ્ટિમાઇઝેશન પ્રદાન કરે છે.
પાયથોન માટે સ્પાર્ક એપીઆઇ, પાયસ્કાર્ક, પાયથોન પેકેજ અનુક્રમણિકા, પાઇપીઆઈ પર 5 મિલિયનથી વધુ માસિક ડાઉનલોડ્સ ધરાવે છે. ઘણા પાયથોન વિકાસકર્તાઓ તેઓ ડેટા વિશ્લેષણ માટે API નો ઉપયોગ કરે છે, જો કે તે સિંગલ નોડ પ્રોસેસિંગ પૂરતું મર્યાદિત છે.
પાયથોન તેથી હતો, સ્પાર્ક for.૦ માટે વિકાસનો મુખ્ય ક્ષેત્ર. વિતરિત વાતાવરણમાં મોટા ડેટા સાથે કામ કરતી વખતે ડેટા વૈજ્ .ાનિકોને વધુ ઉત્પાદક બનાવવા માટે અપાચે સ્પાર્ક પર એપીઆઈ વિકાસને વેગ મળ્યો છે.
કોઆલાસ ઘણા કાર્યો બનાવવાની જરૂરિયાતને દૂર કરે છે ક્લસ્ટરમાં સારા પ્રદર્શન માટે, PySpark માં (દા.ત. ગ્રાફિક્સ સપોર્ટ).
અત્યાર સુધી, અમે કહી શકીએ કે સ્પાર્કની ભૂમિકા ઘણીવાર ઇટીએલ (એક્સ્ટ્રેક્ટ ટ્રાન્સફોર્મ લોડ) ની મર્યાદિત હોય છે.
પાયથોન પ્રકારનાં સંકેતો અને અતિરિક્ત પાંડા યુડીએફ (વપરાશકર્તા દ્વારા નિર્ધારિત કાર્યો) સહિતના નોંધપાત્ર એપીઆઇ સુધારણાના આમાં ખાસ પરિણામ આવે છે.
સ્પાર્ક. વધુ સારી રીતે પાયથોન એરર હેન્ડલિંગની offersફર કરે છે, અને વપરાશકર્તા-નિર્ધારિત આર કાર્યો માટેના ક callsલ્સ 40 ગણા ઝડપી છે.
તે પણ ધ્યાનમાં લેવું જોઈએ કે સ્પાર્ક in. in માં, 46% તમામ સુધારાઓ એસક્યુએલ કાર્યક્ષમતા માટે હતાછે, જેણે કામગીરી અને એએનએસઆઈ સુસંગતતા બંનેમાં સુધારો કર્યો છે.
તે કહ્યું, સ્પાર્ક એસક્યુએલ એન્જિનમાં ત્રણ સૌથી મહત્વપૂર્ણ નવી સુવિધાઓ એ અનુકૂલનશીલ ક્વેરીઝનું અમલ છે.
.પ્ટિમાઇઝેશન પદ્ધતિઓ ક્વેરીઝ સામાન્ય રીતે સ્થિર ક્વેરી optimપ્ટિમાઇઝેશન પર ધ્યાન કેન્દ્રિત કરે છે.
સ્પાર્કમાં સ્ટોરેજ અને પ્રોસેસિંગના અલગ થવાને કારણે, ડેટાનું આગમન અણધારી હોઈ શકે છે. આ કારણોસર, અનુકૂલનશીલ ક્વેરી એક્ઝેક્યુશન પરંપરાગત સિસ્ટમો કરતાં સ્પાર્ક માટે વધુ નિર્ણાયક બને છે.
એવી ઘણી અન્ય સુવિધાઓ છે જે તમે પ્રકાશન નોંધોમાં ચકાસી શકો છો. ડેટા સ્રોતો, ઇકોસિસ્ટમ્સ, મોનિટરિંગ, ડિબગિંગ અને વધુને આવરી લેતી સુવિધાઓ.
તમે પ્રકાશન નોંધ ચકાસી શકો છો નીચેની લીંક પર જઈને.
સ્રોત: https://spark.apache.org/