كيف تسبب ملف كمبيوتر واحد عن طريق الخطأ في تعطيل 20% من الإنترنت أمس – بلغة بسيطة
أظهر انقطاع الخدمة يوم أمس مدى اعتماد الويب الحديث على عدد قليل من مزودي البنية التحتية الأساسية.
في الواقع، الاعتماد كبير لدرجة أن خطأ واحد في التهيئة جعل أجزاء كبيرة من الإنترنت غير قابلة للوصول تمامًا لعدة ساعات.
يعمل الكثير منا في مجال العملات الرقمية لأننا ندرك مخاطر المركزية في التمويل، لكن أحداث الأمس كانت تذكيرًا واضحًا بأن المركزية في جوهر الإنترنت تمثل مشكلة ملحة بنفس القدر.
تشغل الشركات العملاقة الواضحة مثل Amazon وGoogle وMicrosoft أجزاء ضخمة من بنية السحابة التحتية.
لكن الشركات الحيوية بنفس القدر هي مثل Cloudflare وFastly وAkamai وDigitalOcean، ومزودي CDN (الخوادم التي تسرع تسليم المواقع حول العالم) أو DNS (دفتر عناوين الإنترنت) مثل UltraDNS وDyn.
معظم الناس بالكاد يعرفون أسماءهم، ومع ذلك فإن انقطاع خدماتهم قد يكون مدمرًا بنفس القدر، كما رأينا بالأمس.
للبدء، إليك قائمة بالشركات التي قد لا تكون سمعت عنها من قبل، لكنها ضرورية لاستمرار عمل الإنترنت كما هو متوقع.
| البنية التحتية الأساسية (DNS/CDN/DDoS) | Cloudflare | CDN، DNS، الحماية من DDoS، Zero Trust، Workers | تفشل أجزاء ضخمة من حركة الويب العالمية؛ آلاف المواقع تصبح غير قابلة للوصول. |
| البنية التحتية الأساسية (CDN) | Akamai | CDN للمؤسسات للبنوك، تسجيلات الدخول، التجارة | تتعطل خدمات المؤسسات الكبرى، البنوك، وأنظمة تسجيل الدخول. |
| البنية التحتية الأساسية (CDN) | Fastly | CDN، الحوسبة الطرفية | إمكانية حدوث انقطاع عالمي (كما حدث في 2021: Reddit، Shopify، gov.uk، NYT). |
| مزود السحابة | AWS | الحوسبة، الاستضافة، التخزين، APIs | تتعطل تطبيقات SaaS، منصات البث، التكنولوجيا المالية، وشبكات إنترنت الأشياء. |
| مزود السحابة | Google Cloud | YouTube، Gmail، الأنظمة الخلفية للمؤسسات | تعطل هائل عبر خدمات Google والتطبيقات المعتمدة عليها. |
| مزود السحابة | Microsoft Azure | سحابات المؤسسات والحكومات | انقطاع Office365، Teams، Outlook، وXbox Live. |
| بنية DNS التحتية | Verisign | .com و .net TLDs، الجذر DNS | فشل توجيه كارثي عالمي لأجزاء كبيرة من الويب. |
| مزودو DNS | GoDaddy / Cloudflare / Squarespace | إدارة DNS لملايين النطاقات | تختفي شركات كاملة من الإنترنت. |
| سلطة الشهادات | Let’s Encrypt | شهادات TLS لمعظم الويب | يتعطل HTTPS عالميًا؛ يرى المستخدمون أخطاء أمان في كل مكان. |
| سلطة الشهادات | DigiCert / GlobalSign | SSL للمؤسسات | تفقد مواقع الشركات الكبرى ثقة HTTPS. |
| الأمان / CDN | Imperva | DDoS، WAF، CDN | تصبح المواقع المحمية غير قابلة للوصول أو معرضة للخطر. |
| موازنات التحميل | F5 Networks | موازنة تحميل المؤسسات | يمكن أن تفشل الخدمات المصرفية، المستشفيات، والخدمات الحكومية على مستوى الدولة. |
| العمود الفقري من المستوى الأول | Lumen (Level 3) | العمود الفقري العالمي للإنترنت | تسبب مشاكل التوجيه ارتفاعًا عالميًا في الكمون وانقطاعات إقليمية. |
| العمود الفقري من المستوى الأول | Cogent / Zayo / Telia | العبور والتبادل | انقطاعات الإنترنت على مستوى الإقليم أو الدولة. |
| توزيع التطبيقات | Apple App Store | تحديثات وتثبيتات تطبيقات iOS | يتجمد نظام تطبيقات iOS فعليًا. |
| توزيع التطبيقات | Google Play Store | توزيع تطبيقات Android | لا يمكن تثبيت أو تحديث تطبيقات Android عالميًا. |
| المدفوعات | Stripe | بنية المدفوعات عبر الويب | تفقد آلاف التطبيقات القدرة على قبول المدفوعات. |
| الهوية / تسجيل الدخول | Auth0 / Okta | المصادقة وتسجيل الدخول الموحد | تتعطل تسجيلات الدخول لآلاف التطبيقات. |
| الاتصالات | Twilio | رسائل 2FA، OTP، المراسلة | تفشل نسبة كبيرة من رموز 2FA وOTP عالميًا. |
ما حدث بالأمس
كان الجاني بالأمس هو Cloudflare، وهي شركة توجه ما يقرب من 20% من كل حركة الويب.
تقول الشركة الآن إن الانقطاع بدأ بتغيير صغير في تهيئة قاعدة البيانات تسبب عن طريق الخطأ في تضمين عناصر مكررة في ملف اكتشاف الروبوتات.
نما هذا الملف فجأة متجاوزًا حد الحجم الصارم. عندما حاولت خوادم Cloudflare تحميله، فشلت، وبدأت العديد من المواقع التي تستخدم Cloudflare في إرجاع أخطاء HTTP 5xx (رموز الخطأ التي يراها المستخدمون عندما يتعطل الخادم).
إليك سلسلة الأحداث البسيطة:
تعديل صغير في قاعدة البيانات يطلق سلسلة تفاعلات كبيرة.
بدأت المشكلة في الساعة 11:05 بالتوقيت العالمي عندما جعل تحديث الأذونات النظام يسحب معلومات إضافية ومكررة أثناء بناء الملف المستخدم لتقييم الروبوتات.
عادةً ما يتضمن هذا الملف حوالي ستين عنصرًا. دفعت العناصر المكررة العدد إلى ما بعد الحد الأقصى البالغ 200. عندما قامت الأجهزة عبر الشبكة بتحميل الملف الكبير، فشل مكون الروبوتات في البدء، وأرجعت الخوادم أخطاء.
وفقًا لـ Cloudflare، تأثرت كل من المسارات الحالية والقديمة للخوادم. أحدها أرجع أخطاء 5xx. والآخر أعطى درجة روبوت صفر، مما قد يؤدي إلى تصنيف حركة المرور بشكل خاطئ للعملاء الذين يحظرون بناءً على درجة الروبوت (اكتشاف الروبوت مقابل الإنسان في Cloudflare).
كان التشخيص صعبًا لأن الملف السيئ كان يُعاد بناؤه كل خمس دقائق من مجموعة قواعد بيانات يتم تحديثها قطعة بقطعة.
إذا سحب النظام من قطعة محدثة، كان الملف سيئًا. إذا لم يفعل، كان جيدًا. كانت الشبكة تتعافى ثم تفشل مرة أخرى مع تبديل الإصدارات.
وفقًا لـ Cloudflare، بدا هذا النمط المتقطع في البداية وكأنه هجوم DDoS محتمل، خاصةً أن صفحة حالة طرف ثالث فشلت أيضًا في نفس الوقت تقريبًا. تحول التركيز بمجرد ربط الفرق الأخطاء بتهيئة اكتشاف الروبوتات.
بحلول الساعة 13:05 بالتوقيت العالمي، طبقت Cloudflare تجاوزًا لـ Workers KV (فحوصات تسجيل الدخول) وCloudflare Access (نظام المصادقة)، لتوجيه الحركة بعيدًا عن السلوك الفاشل لتقليل التأثير.
جاء الإصلاح الرئيسي عندما توقفت الفرق عن إنشاء وتوزيع ملفات الروبوتات الجديدة، ودفعوا ملفًا معروفًا جيدًا، وأعادوا تشغيل الخوادم الأساسية.
تقول Cloudflare إن حركة المرور الأساسية بدأت بالتدفق بحلول الساعة 14:30، وتعافت جميع الخدمات التابعة بحلول الساعة 17:06.
يبرز الفشل بعض المفاضلات في التصميم.
تفرض أنظمة Cloudflare حدودًا صارمة للحفاظ على الأداء متوقعًا. يساعد ذلك في تجنب الاستخدام المفرط للموارد، لكنه يعني أيضًا أن ملفًا داخليًا مشوهًا يمكن أن يؤدي إلى توقف تام بدلاً من تراجع سلس.
نظرًا لأن اكتشاف الروبوتات يقع على المسار الرئيسي للعديد من الخدمات، فقد أدى فشل وحدة واحدة إلى سلسلة من الأعطال في CDN، وميزات الأمان، وTurnstile (بديل CAPTCHA)، وWorkers KV، وAccess، وتسجيلات الدخول للوحة التحكم. أشارت Cloudflare أيضًا إلى زيادة الكمون حيث استهلكت أدوات التصحيح وحدة المعالجة المركزية أثناء إضافة السياق للأخطاء.
من جانب قاعدة البيانات، كان لتعديل ضيق في الأذونات تأثيرات واسعة.
جعل التغيير النظام "يرى" المزيد من الجداول عن ذي قبل. لم يقم العمل الذي يبني ملف اكتشاف الروبوتات بتصفية الأعمدة بشكل كافٍ، لذا التقط أسماء أعمدة مكررة ووسع الملف إلى ما بعد حد 200 عنصر.
أدى خطأ التحميل بعد ذلك إلى فشل الخوادم واستجابات 5xx على المسارات المتأثرة.
تفاوت التأثير حسب المنتج. ألقت خدمات CDN والأمان الأساسية أخطاء الخادم.
شهد Workers KV معدلات 5xx مرتفعة لأن الطلبات إلى بوابته مرت عبر المسار الفاشل. واجه Cloudflare Access إخفاقات في المصادقة حتى تجاوز الساعة 13:05، وتوقفت تسجيلات الدخول للوحة التحكم عندما لم يتمكن Turnstile من التحميل.
فقدت Cloudflare Email Security مؤقتًا مصدر سمعة IP، مما قلل من دقة اكتشاف البريد العشوائي لفترة، رغم أن الشركة قالت إنه لم يكن هناك تأثير حرج على العملاء. بعد استعادة الملف الجيد، تسبب تراكم محاولات تسجيل الدخول لفترة وجيزة في إجهاد APIs الداخلية قبل أن تعود الأمور لطبيعتها.
الجدول الزمني واضح.
تم تطبيق تغيير قاعدة البيانات في الساعة 11:05 بالتوقيت العالمي. ظهرت أولى الأخطاء التي تواجه العملاء حوالي 11:20–11:28.
فتحت الفرق حادثة في الساعة 11:35، وطبقت تجاوز Workers KV وAccess في الساعة 13:05، وتوقفت عن إنشاء ونشر الملفات الجديدة حوالي 14:24، ودُفع ملف جيد معروف وشوهد التعافي العالمي بحلول 14:30، وتم إعلان الاستعادة الكاملة في 17:06.
وفقًا لـ Cloudflare، أبلغت الاختبارات الآلية عن شذوذ في الساعة 11:31، وبدأ التحقيق اليدوي في الساعة 11:32، مما يفسر التحول من الاشتباه في هجوم إلى التراجع عن التهيئة خلال ساعتين.
| 11:05 | تم نشر التغيير | تحديث أذونات قاعدة البيانات أدى إلى إدخالات مكررة |
| 11:20–11:28 | بدء التأثير | ارتفاع أخطاء HTTP 5xx مع تجاوز ملف الروبوتات حد 200 عنصر |
| 13:05 | التخفيف | تجاوز لـ Workers KV وAccess يقلل من سطح الخطأ |
| 13:37–14:24 | التحضير للتراجع | إيقاف نشر الملف السيئ، التحقق من الملف الجيد المعروف |
| 14:30 | التعافي الأساسي | تم نشر الملف الجيد، تعود حركة المرور الأساسية لطبيعتها |
| 17:06 | تم الحل | استعادة جميع الخدمات التابعة بالكامل |
توضح الأرقام السبب والاحتواء.
أعاد دورة إعادة البناء كل خمس دقائق إدخال الملفات السيئة مع تحديث أجزاء قاعدة البيانات المختلفة.
يحمي حد 200 عنصر استخدام الذاكرة، وكان العدد المعتاد حوالي ستين، مما ترك مساحة مريحة حتى وصول الإدخالات المكررة.
عمل الحد كما هو مصمم، لكن غياب "تحميل آمن" متسامح للملفات الداخلية حول تهيئة سيئة إلى تعطل بدلاً من فشل ناعم مع نموذج احتياطي. وفقًا لـ Cloudflare، هذه منطقة رئيسية يجب تعزيزها.
تقول Cloudflare إنها ستعزز كيفية التحقق من صحة التهيئة الداخلية، وتضيف المزيد من مفاتيح الإيقاف العالمية لخطوط ميزات المنتجات، وتوقف تقارير الأخطاء عن استهلاك وحدة المعالجة المركزية بشكل كبير أثناء الحوادث، وتراجع معالجة الأخطاء عبر الوحدات، وتحسن كيفية توزيع التهيئة.
وصفت الشركة هذا بأنه أسوأ حادثة منذ 2019 واعتذرت عن التأثير. ووفقًا لـ Cloudflare، لم يكن هناك هجوم؛ جاء التعافي من إيقاف الملف السيئ، واستعادة ملف جيد معروف، وإعادة تشغيل عمليات الخادم.
ظهر المنشور كيف تسبب ملف كمبيوتر واحد عن طريق الخطأ في تعطيل 20% من الإنترنت بالأمس – بلغة إنجليزية بسيطة لأول مرة على CryptoSlate.
إخلاء المسؤولية: يعكس محتوى هذه المقالة رأي المؤلف فقط ولا يمثل المنصة بأي صفة. لا يُقصد من هذه المقالة أن تكون بمثابة مرجع لاتخاذ قرارات الاستثمار.
You may also like
بيتكوين تخسر مكاسب 2025: مستوى 90,000 دولار يمثل نقطة تحول في سوق العملات الرقمية


توقعات الأسعار 11/19: BTC، ETH، XRP، BNB، SOL، DOGE، ADA، HYPE، BCH، ZEC

تشير ثلاث نقاط بيانات لـ SOL إلى أن 130 دولار كانت القاع: هل حان وقت العودة إلى أعلى نطاق؟

