क्लाउडफ्लारे के सीईओ आउटेज की बात करते हैं: "यह पूरी तरह से हमारी समस्या थी, यह एक गलती थी जो हमने की"

बाहरी हमला नहीं। पिछले हफ्ते की बीजीपी समस्याओं से संबंधित नहीं। दोबारा नहीं होने वाला?


क्लाउडफ्लारे के सीईओ आउटेज की बात करते हैं: "यह पूरी तरह से हमारी समस्या थी, यह एक गलती थी जो हमने की"
क्लाउडफ्लारे के सीईओ आउटेज की बात करते हैं: "यह पूरी तरह से हमारी समस्या थी, यह एक गलती थी जो हमने की"


इससे पहले आज, नेटवर्क सेवाओं के प्रदाता क्लाउडफेयर को एक महत्वपूर्ण नुकसान का सामना करना पड़ा, जिससे इसकी सभी सेवाएं समाप्त हो गईं - और इसके साथ इंटरनेट का एक बड़ा हिस्सा, जिसमें डिस्कोर्ड, मार्केटो, डाउन डिटेक्टर और बहुत कुछ शामिल हैं।

क्लाउडफ्लारे के सीईओ मैथ्यू प्रिंस ने डीसीडी को बताया, "हमने एक बेहतर इंटरनेट बनाने में मदद करने के मिशन के साथ क्लाउडफेयर का निर्माण किया और आज सुबह, हम उस पर खरे नहीं उतरे।" "मैं इसके लिए व्यक्तिगत जिम्मेदारी लेता हूं। और इसलिए मुझे लगता है कि यह निराशाजनक है, और यह दर्दनाक है।"

डीसीडी के साथ एक साक्षात्कार में जब वह हवाई अड्डे पर पहुंचे, प्रिंस ने बताया कि क्या गलत हुआ, देश-राज्य के हमलों के बारे में अफवाहों को दूर कर दिया, और पिछले हफ्ते के असंबंधित बीजीपी आउटेज पर चर्चा की।

यहाँ क्या हुआ है

ऑनलाइन अटकलें लगाई गई हैं कि यह किसी प्रकार के बाहरी हमले के कारण हुआ था, "प्रिंस ने कहा। हमें ऐसा कोई सबूत नहीं मिला है कि यह किसी बाहरी हमले से संबंधित था, हालांकि यह हमारी अपनी टीम की शुरुआती अटकलें भी थीं।"

जबकि कुछ ब्लॉग्स और सोशल मीडिया चैटर ने डीडीओएस के हमले पर चीन सरकार को हांगकांग के प्रदर्शनकारियों को ऑफ़लाइन लाने की कोशिश पर चुटकी ली, प्रिंस ने दावों से इनकार किया। "हमें यह सुनिश्चित करने की ज़रूरत थी कि कोई भी ऐसा नहीं मानता है क्योंकि यह मामला था, क्योंकि यह मामला नहीं था। और जबकि यह अविश्वसनीय रूप से सुविधाजनक होगा यदि यह मामला था - क्योंकि यह एक समझने योग्य मुद्दा होगा - यह वह नहीं था।"

समस्या के बजाय, जो उपयोगकर्ताओं को विश्व स्तर पर 30 मिनट तक प्रभावित करता है, आंतरिक रूप से क्लाउडफेयर के कारण हुआ था। वास्तव में, यह क्लाउडफेयर की अपनी डीडीओएस सुरक्षा थी जिसे दोष देना था।

"जब हम किसी हमले को देखते हैं, तो हमारे सिस्टम को उन सभी सेवाओं में स्केल करने में सक्षम होने के लिए डिज़ाइन किया जाता है, जो इसे कम करने में सक्षम हों।" "दुर्भाग्य से, आज सुबह यह प्रतीत होता है कि हमारी फ़ायरवॉल सेवा में एक बग था, जिसने इसे समय के साथ बढ़ने और पैमाने पर ले लिया, भले ही कोई हमला नहीं हुआ जो किसी भी तरह से सेवा को लक्षित कर रहा था।"

बग के कारण, Cloudflare Web Application Firewall (WAF) "अचानक खपत होने वाले सीपीयू के सभी संसाधन सामान्य थे।" दुर्भाग्य से, सिस्टम को क्लाउडफ़ेयर के नेटवर्क में उस संसाधन को फैलाने के लिए डिज़ाइन किया गया था जो विश्व स्तर पर 180 से अधिक शहरों में फैला हुआ है। लेकिन एक परिमित हमले के भार को फैलाने के बजाय, इसने एक बढ़ते-बढ़ते संसाधन हॉगिंग बग का भार फैला दिया जो "कुछ समय के लिए हमारे प्राथमिक बैकअप और हमारे बैकअप-बैकअप सिस्टम का उपभोग करता है," 100 प्रतिशत सीपीयू भार के साथ अभूतपूर्व CPU थकावट का कारण बनता है।

प्रिंस ने कहा: "यह एक अनोखी समस्या थी, यह एक ऐसी चीज थी, जिसे हमने पहले कभी नहीं देखा था। मैं उस प्रणाली के फैसले को समझता हूं, जो हमने किया था कि वह इसे एक समस्या के रूप में व्यापक हो सकता है जैसा कि यह किया, क्योंकि हम फिर से बनना चाहते थे। हमारे सिस्टम को इस तरह से डिजाइन करने में सक्षम है कि जब उन्होंने बड़े हमले देखे, तो वे उन्हें कम करने के लिए आवश्यक सभी संसाधनों का पैमाने और उपयोग कर सकें।

"दुर्भाग्य से ... ऐसा प्रतीत होता है कि हमारे पास यह सुनिश्चित करने के लिए उचित नियंत्रण नहीं था कि यह बग इस तरह व्यापक प्रसार का कारण नहीं बने। लेकिन हम आगे बढ़ेंगे।"

जैसा कि कंपनी वास्तव में क्या हुआ है के बारे में अधिक जानती है, प्रिंस ने पूरी पारदर्शिता का वादा किया है, उन्होंने कहा कि ऐसी घटनाओं के बाद ग्राहकों को रखने के लिए जरूरी था।

"हम भाग्यशाली हैं कि हमारे पास कई महत्वपूर्ण मुद्दे नहीं हैं," उन्होंने कहा। "लेकिन मुझे याद है कि 2012 में पहली बार हमने जो हैक किया था, वह अविश्वसनीय रूप से दर्दनाक था। यह हमारे ग्राहकों में से एक को प्रभावित करता था, और इसने मुझे व्यक्तिगत रूप से प्रभावित किया, क्योंकि हैकर वास्तव में मेरे व्यक्तिगत ईमेल में हैक हो गया था ताकि वह अंदर जा सके। ।

"और मैं शर्मिंदा था - स्पष्ट रूप से, मैं जो कुछ भी हुआ उसका विवरण साझा नहीं करना चाहता था। हमारी टीम ने कहा 'नहीं, यह हमारी संस्कृति नहीं है, और यही वह नहीं है जिसके लिए हम खड़े हैं और हम वास्तव में मौलिक होने के इस विचार में विश्वास करते हैं। जो भी हुआ उसके साथ पारदर्शी। ' मुझे डर था कि हम ग्राहकों को खो देंगे। यह बदले में निकला ... पारदर्शिता ने वास्तव में लोगों को विश्वास बनाने में मदद की। "

ग्राहकों को बनाए रखने के लिए समान रूप से महत्वपूर्ण है सेवा स्तर के समझौतों (SLAs) का सम्मान करना, कुछ ऐसा जो प्रिंस ने कहा "हमारी टीम पहले से ही हल करने के लिए काम कर रही है। हमने हमेशा जो भी SLAs हैं और जो भी प्रभावित हो रहा है उन्हें सम्मानित करने का एक बहुत व्यापक दृष्टिकोण लिया है। ग्राहकों के लिए हमारे नेटवर्क तक पहुँचने की क्षमता। "

प्रिंस ने यह भी वादा किया कि कंपनी के पास एक "दोषरहित संस्कृति" थी, "जब तक वहां सक्रिय खराबी या कुछ ऐसा नहीं था जो गलत हो रहा था, मैं सोच भी नहीं सकता कि यह कोई ऐसी चीज है जिससे कोई अपना काम खत्म करने जा रहा है।"

इस घटना को विशेष रूप से दर्दनाक बनाता है - प्रिंस, कंपनी और उसके ग्राहकों के लिए - क्या यह है कि पिछले हफ्ते ही क्लाउडफेयर समान रूप से अनुपलब्ध था।

बुरा समय
"आज का मुद्दा पूरी तरह से हमारी समस्या थी, यह एक गलती थी जो हमने की थी," उन्होंने कहा। पिछले हफ्ते, हालांकि, एक बाहरी असफलता थी।

"22,000 नेटवर्क ने अपने नेटवर्क मार्गों को अपहृत कर लिया था, [कुछ] जो क्लाउडफ़ेयर के नेटवर्क के कुछ अंश को प्रभावित करते थे," प्रिंस ने कहा। "यह एक इंटरनेट-वाइड मुद्दे का बहुत अधिक है, और ऐसा कुछ है ... [] संपूर्ण इंटरनेट समुदाय को हल करने के लिए काम करने की आवश्यकता है।

"दो चीजें पूरी तरह से और पूरी तरह से असंबंधित थीं," उन्होंने स्वीकार किया कि क्लाउडफेयर के भीतर भी दो आउटेज के बीच एक संबंध के बारे में अटकलें थीं: "आप कुछ हो रहा है और आप सोचते हैं कि ओह, यह वही होना चाहिए जो पहले था । ' ये पूरी तरह से असंबंधित प्रक्रियाएं थीं, पूरी तरह से असंबंधित टीम। "

पिछले हफ्ते का मुद्दा इंटरनेट की सीमा गेटवे समस्या (बीजीपी) के साथ एक समस्या थी, जो प्रबंधित करती है कि पूरे इंटरनेट पर पैकेट कैसे रूट किए जाते हैं। टेलीकॉम कंपनी वेरिज़ोन ने गलती से लीक हुए बीजीपी मार्गों के एक विशाल सेट को स्वीकार किया और प्रचारित किया, अनिवार्य रूप से गलत स्थानों पर इंटरनेट ट्रैफ़िक भेज रहा था। व्यक्तिगत सेवा प्रदाता अपने यातायात को अनुकूलित करने के लिए विशिष्ट मार्ग स्थापित कर सकते हैं; इस मामले में, इन "अधिक विशिष्ट" मार्गों में से एक को लीक कर दिया गया था और इसका व्यापक रूप से उपयोग किया जाना चाहिए था, एक अवांछित अड़चन पैदा कर रहा था (इस मामले में अधिक विशिष्ट मार्ग धातु निर्माता कंपनी के कॉर्पोरेट नेटवर्क के माध्यम से एक और आईएसपी से था। यह अनजाने में था। Verizon द्वारा स्वीकार और प्रसारित, प्रभावी ढंग से अधिभार को आमंत्रित करना)।

नेटवर्क मॉनिटरिंग कंपनी ThousandEyes के एलेक्स हेंथोर्न-इवेन ने DCD के लिए एक ब्लॉग पोस्ट में समझाया: "अंतिम परिणाम यह था कि क्लाउडफ़ेयर और अन्य प्रदाताओं की ओर जाने वाले उपयोगकर्ता ट्रैफ़िक का एक बड़ा सेट अपेक्षाकृत परिणामी कॉर्पोरेट नेटवर्क के माध्यम से रूट किया गया, जो अनुमानित परिणाम था। ट्रैफ़िक पुनर्निर्देशन से बड़े पैमाने पर भीड़ पैकेट के नुकसान और सेवा में व्यवधान के उच्च स्तर की ओर ले जाती है। उपयोगकर्ता बस क्लाउडफ़ेयर एज सर्वर और उन ऐप और सेवाओं तक पहुंचने में सक्षम नहीं थे जो उन पर निर्भर थे। "

यह क्लाउडफ्लेयर की तुलना में बहुत अधिक व्यापक समस्या है, इंटरनेट के मूल डिजाइन के साथ एक मुद्दा। "आज के मुद्दे के बारे में अच्छी खबर यह है कि यह पूरी तरह से हमारे नियंत्रण में है, और इसलिए कुछ ऐसा है जो मुझे पता है कि हम ठीक कर सकते हैं, कि हम जगह में सुरक्षा उपाय कर सकते हैं, और फिर से नहीं होगा," प्रिंस ने कहा। "हम हर समय गलतियाँ करते हैं - लेकिन हम हर समय अलग-अलग गलतियाँ करते हैं, जो मुझे लगता है कि एक स्वस्थ संगठन का संकेत है।"

"पिछले सप्ताह के आउटेज के बारे में निराशाजनक बात यह है कि यह पूरी तरह से हमारे नियंत्रण में नहीं है, और इसलिए हमें अपने सिस्टम को साफ करने के लिए वेरिज़ोन जैसे अन्य बड़े नेटवर्क के साथ काम करने की आवश्यकता है। और यह कुछ ऐसा है - जब हम सक्षम होंगे। ठीक करने के लिए [आज का] मुद्दा बहुत जल्दी - बीजीपी मार्ग लीक के बारे में मुद्दा कुछ ऐसा होने जा रहा है जो हमें हल करने में बहुत अधिक समय लेता है, और इसे तय करने के लिए इस पर काम करने वाले क्लाउडफेयर की तुलना में बहुत अधिक लेने जा रहा है। "

0 Comments: