Google का विवरण 'भयावह' क्लाउड आउटेज इवेंट्स: अगली बार बेहतर करने का वादा करता है

डेटा-सेंटर ऑटोमेशन सॉफ्टवेयर पिछले रविवार को Google द्वारा "भयावह विफलता" के रूप में वर्णित करने के पीछे था।

Google का विवरण 'भयावह' क्लाउड आउटेज इवेंट्स: अगली बार बेहतर करने का वादा करता है
Google का विवरण 'भयावह' क्लाउड आउटेज इवेंट्स: अगली बार बेहतर करने का वादा करता है


Google ने अब ग्राहकों को रविवार, 2 जून को एक "भयावह विफलता" के बारे में पूरी तकनीकी खराबी की पेशकश की है, जो सेवाओं को साढ़े चार घंटे तक बाधित करता है। नेटवर्किंग मुद्दों ने Snapchat और Vimeo जैसे YouTube, Gmail और Google क्लाउड उपयोगकर्ताओं को प्रभावित किया।


इस हफ्ते की शुरुआत में, Google के VP of Engineering Benjamin Treynor Sloss ने ग्राहकों से माफ़ी मांगी, यह स्वीकार करते हुए कि कंपनी को "कॉन्फ़िगरेशन" में किसी दुर्घटना की स्थिति से उबरने की उम्मीद की तुलना में "अधिक समय" लग गया था, जिससे YouTube ट्रैफ़िक में 10 प्रतिशत की गिरावट आई और 30 Google क्लाउड स्टोरेज ट्रैफ़िक में प्रतिशत में गिरावट। इस घटना ने एक बिलियन से भी अधिक जीमेल उपयोगकर्ताओं को प्रभावित किया।


कंपनी ने अब जो विफल हुआ, जो प्रभावित हुआ, और क्यों Google इंजीनियरों ने मिनटों के भीतर पता लगाया कि एक बहु-घंटे के आउटेज में बदल गया, जो उत्तरी अमेरिका में ज्यादातर उपयोगकर्ताओं को प्रभावित करता था।

"ग्राहकों ने हमारे-सेंट्रल 1, यूएस-ईस्ट 1, यूएस-ईस्ट 4, यूएस-वेस्ट 2, नॉर्थहेर्मिका-नॉर्थईस्ट 1, और साउथहॉटिका-ईस्ट 1 में उदाहरणों के लिए बढ़ी हुई विलंबता, रुक-रुककर और कनेक्टिविटी की हानि का अनुभव किया हो सकता है। Google क्लाउड ने हमारे-वेस्ट 1,। और सभी यूरोपीय क्षेत्रों और एशियाई क्षेत्रों ने क्षेत्रीय नेटवर्क की भीड़ का अनुभव नहीं किया, "Google ने अपनी तकनीकी रिपोर्ट में कहा।

इन क्षेत्रों में घटना के दौरान प्रभावित Google क्लाउड प्लेटफ़ॉर्म सेवाओं में Google कंप्यूट इंजन, ऐप इंजन, क्लाउड एंडपॉइंट, क्लाउड इंटरकनेक्ट, क्लाउड वीपीएन, क्लाउड कंसोल, स्टैकड्राइवर मेट्रिक्स, क्लाउड पब / सब, बिगक्वेरी, रीजनल क्लाउड डेनर इंस्टेंसेस, और क्लाउड स्टोरेज क्षेत्रीय शामिल हैं बाल्टी। इन क्षेत्रों में जी सूट सेवाएं भी प्रभावित हुईं।

Google ने फिर से विफलता के लिए ग्राहकों से माफी मांगी और कहा कि यह प्रदर्शन और उपलब्धता को बढ़ावा देने के लिए "तत्काल कदम" उठा रहा है।

प्रभावित होने वाले बड़े नाम वाले ग्राहकों में स्नैपचैट, वीमियो, शॉपिफाई, डिस्कोर्ड और पोकेमॉन गो शामिल हैं।

सरल व्याख्या यह थी कि एक क्षेत्र में सर्वरों के एक छोटे समूह के लिए एक विन्यास परिवर्तन गलत तरीके से कई पड़ोसी क्षेत्रों में बड़ी संख्या में सर्वरों पर लागू किया गया था। इसने प्रभावित क्षेत्रों में अपनी उपलब्ध क्षमता के आधे से भी कम का उपयोग किया।

Google अब कहता है कि उसके स्वचालन सॉफ्टवेयर में एक सॉफ्टवेयर बग भी चल रहा था:

"दो सामान्य रूप से सौम्य गलतफहमी, और एक विशिष्ट सॉफ्टवेयर बग, आउटेज को आरंभ करने के लिए संयुक्त: सबसे पहले, नेटवर्क नियंत्रण विमान नौकरियों और प्रभावित क्षेत्रों में उनके सहायक बुनियादी ढांचे को एक रखरखाव घटना के चेहरे में बंद करने के लिए कॉन्फ़िगर किया गया था।

"दूसरी बात, नेटवर्क नियंत्रण विमान चलाने वाले क्लस्टर प्रबंधन सॉफ़्टवेयर के कई उदाहरणों को एक विशेष, अपेक्षाकृत दुर्लभ रखरखाव प्रकार में शामिल करने के लिए योग्य के रूप में चिह्नित किया गया था।

"तीसरा, रखरखाव कार्यक्रमों की शुरुआत करने वाले सॉफ़्टवेयर में एक विशिष्ट बग था, जो एक ही समय में कई स्वतंत्र सॉफ़्टवेयर समूहों को निरस्त करने की अनुमति देता है, भले ही वे क्लस्टर अलग-अलग भौतिक स्थानों में हों।"

कम नेटवर्क क्षमता के लिए, Google ने कहा कि नेटवर्क उपलब्धता की सुरक्षा के लिए इस तरीके ने इस अवसर पर इसके खिलाफ काम किया, "जिसके परिणामस्वरूप हमारी सेवाओं और उपयोगकर्ताओं द्वारा देखी गई नेटवर्क क्षमता में उल्लेखनीय कमी आई, और कुछ Google क्लाउड क्षेत्रों की दुर्गमता"।

जैसा कि स्लॉस के खाते में पहली बार पता चला, Google इंजीनियरों ने "शुरू होने के दो मिनट बाद" विफलता का पता लगाया और प्रतिक्रिया शुरू की। हालांकि, नई रिपोर्ट कहती है कि डिबगिंग "अब-भीड़भाड़ नेटवर्क के उपयोग पर प्रतिस्पर्धा करने वाले उपकरणों की विफलता से काफी बाधित" था।

यह Google के विशाल संसाधनों और बैकअप योजनाओं के बावजूद हुआ, जिसमें "सबसे भयावह विफलताओं का सामना करने के लिए डिज़ाइन की गई सुरक्षित सुविधाओं की यात्रा करने वाले इंजीनियर" शामिल हैं।

इसके अतिरिक्त, Google के संचार उपकरणों को नुकसान ने ग्राहकों पर प्रभाव को पहचानने की इंजीनियरों की क्षमता को नुकसान पहुँचाया, जिससे ग्राहकों के साथ सटीक संवाद करने की उनकी क्षमता में बाधा उत्पन्न हुई।

Google ने अब रखरखाव कार्य के दौरान अपने डेटा-सेंटर ऑटोमेशन सॉफ़्टवेयर को पुनर्निर्धारित नौकरियों के लिए ज़िम्मेदार ठहराया है। यह सुनिश्चित करने के बाद इस सॉफ़्टवेयर को फिर से सक्षम करेगा कि यह कई भौतिक स्थानों में समवर्ती नौकरियों को निरस्त नहीं करता है।

इसके अलावा: सेवा के रूप में सब कुछ का भविष्य (मुक्त पीडीएफ)

Google अपने आपातकालीन प्रतिक्रिया उपकरणों और प्रक्रियाओं की समीक्षा करने की योजना बना रहा है ताकि यह सुनिश्चित किया जा सके कि वे एक समान नेटवर्क विफलता के काम पर हैं और अभी भी ग्राहकों के साथ सटीक संवाद करने में सक्षम हैं। यह नोट करता है कि पोस्टमार्टम अभी भी एक "अपेक्षाकृत शुरुआती चरण" पर है और भविष्य में आगे की कार्रवाई की पहचान की जा सकती है।

"Google की आपातकालीन प्रतिक्रिया टूलिंग और प्रक्रियाओं की समीक्षा, अद्यतन और परीक्षण किया जाएगा ताकि यह सुनिश्चित किया जा सके कि वे इस तरह की नेटवर्क विफलताओं के लिए मजबूत हैं, जिसमें ग्राहक आधार के साथ संचार करने के लिए हमारी टूलिंग शामिल है। इसके अलावा, हम अपने निरंतर आपदा-वसूली परीक्षण शासन का विस्तार करेंगे। इसे और अन्य समान रूप से विनाशकारी विफलताओं को शामिल करें, ”Google ने कहा।

प्रभाव के रूप में, सबसे खराब सेवा प्रभाव अमेरिका के पश्चिम क्षेत्र में Google क्लाउड स्टोरेज पर था जहां बाल्टी के लिए त्रुटि दर 96.2 प्रतिशत थी, इसके बाद दक्षिण अमेरिका पूर्व में, जहां त्रुटि आधार 79.3 प्रतिशत था।

Google क्लाउड इंटरकनेक्ट प्रभावित क्षेत्रों में 10 प्रतिशत से लेकर 100 प्रतिशत तक के पैकेट के नुकसान से बुरी तरह प्रभावित था।

0 Comments: