كيف تسبب ملف كمبيوتر واحد عن طريق الخطأ في تعطيل 20% من الإنترنت أمس – بلغة بسيطة

Bitget App

تداول بذكاء

Bitget

News

CryptoSlate2025/11/19 19:14

عرض النسخة الأصلية

By:Liam 'Akiba' Wright

أظهر انقطاع الخدمة يوم أمس مدى اعتماد الويب الحديث على عدد قليل من مزودي البنية التحتية الأساسية.

في الواقع، الاعتماد كبير لدرجة أن خطأ واحد في التهيئة جعل أجزاء كبيرة من الإنترنت غير قابلة للوصول تمامًا لعدة ساعات.

يعمل الكثير منا في مجال العملات الرقمية لأننا ندرك مخاطر المركزية في التمويل، لكن أحداث الأمس كانت تذكيرًا واضحًا بأن المركزية في جوهر الإنترنت تمثل مشكلة ملحة بنفس القدر.

تشغل الشركات العملاقة الواضحة مثل Amazon وGoogle وMicrosoft أجزاء ضخمة من بنية السحابة التحتية.

لكن الشركات الحيوية بنفس القدر هي مثل Cloudflare وFastly وAkamai وDigitalOcean، ومزودي CDN (الخوادم التي تسرع تسليم المواقع حول العالم) أو DNS (دفتر عناوين الإنترنت) مثل UltraDNS وDyn.

معظم الناس بالكاد يعرفون أسماءهم، ومع ذلك فإن انقطاع خدماتهم قد يكون مدمرًا بنفس القدر، كما رأينا بالأمس.

للبدء، إليك قائمة بالشركات التي قد لا تكون سمعت عنها من قبل، لكنها ضرورية لاستمرار عمل الإنترنت كما هو متوقع.

الفئة الشركة ما الذي يتحكمون به التأثير إذا توقفت الخدمة

البنية التحتية الأساسية (DNS/CDN/DDoS)	Cloudflare	CDN، DNS، الحماية من DDoS، Zero Trust، Workers	تفشل أجزاء ضخمة من حركة الويب العالمية؛ آلاف المواقع تصبح غير قابلة للوصول.
البنية التحتية الأساسية (CDN)	Akamai	CDN للمؤسسات للبنوك، تسجيلات الدخول، التجارة	تتعطل خدمات المؤسسات الكبرى، البنوك، وأنظمة تسجيل الدخول.
البنية التحتية الأساسية (CDN)	Fastly	CDN، الحوسبة الطرفية	إمكانية حدوث انقطاع عالمي (كما حدث في 2021: Reddit، Shopify، gov.uk، NYT).
مزود السحابة	AWS	الحوسبة، الاستضافة، التخزين، APIs	تتعطل تطبيقات SaaS، منصات البث، التكنولوجيا المالية، وشبكات إنترنت الأشياء.
مزود السحابة	Google Cloud	YouTube، Gmail، الأنظمة الخلفية للمؤسسات	تعطل هائل عبر خدمات Google والتطبيقات المعتمدة عليها.
مزود السحابة	Microsoft Azure	سحابات المؤسسات والحكومات	انقطاع Office365، Teams، Outlook، وXbox Live.
بنية DNS التحتية	Verisign	.com و .net TLDs، الجذر DNS	فشل توجيه كارثي عالمي لأجزاء كبيرة من الويب.
مزودو DNS	GoDaddy / Cloudflare / Squarespace	إدارة DNS لملايين النطاقات	تختفي شركات كاملة من الإنترنت.
سلطة الشهادات	Let’s Encrypt	شهادات TLS لمعظم الويب	يتعطل HTTPS عالميًا؛ يرى المستخدمون أخطاء أمان في كل مكان.
سلطة الشهادات	DigiCert / GlobalSign	SSL للمؤسسات	تفقد مواقع الشركات الكبرى ثقة HTTPS.
الأمان / CDN	Imperva	DDoS، WAF، CDN	تصبح المواقع المحمية غير قابلة للوصول أو معرضة للخطر.
موازنات التحميل	F5 Networks	موازنة تحميل المؤسسات	يمكن أن تفشل الخدمات المصرفية، المستشفيات، والخدمات الحكومية على مستوى الدولة.
العمود الفقري من المستوى الأول	Lumen (Level 3)	العمود الفقري العالمي للإنترنت	تسبب مشاكل التوجيه ارتفاعًا عالميًا في الكمون وانقطاعات إقليمية.
العمود الفقري من المستوى الأول	Cogent / Zayo / Telia	العبور والتبادل	انقطاعات الإنترنت على مستوى الإقليم أو الدولة.
توزيع التطبيقات	Apple App Store	تحديثات وتثبيتات تطبيقات iOS	يتجمد نظام تطبيقات iOS فعليًا.
توزيع التطبيقات	Google Play Store	توزيع تطبيقات Android	لا يمكن تثبيت أو تحديث تطبيقات Android عالميًا.
المدفوعات	Stripe	بنية المدفوعات عبر الويب	تفقد آلاف التطبيقات القدرة على قبول المدفوعات.
الهوية / تسجيل الدخول	Auth0 / Okta	المصادقة وتسجيل الدخول الموحد	تتعطل تسجيلات الدخول لآلاف التطبيقات.
الاتصالات	Twilio	رسائل 2FA، OTP، المراسلة	تفشل نسبة كبيرة من رموز 2FA وOTP عالميًا.

ما حدث بالأمس

كان الجاني بالأمس هو Cloudflare، وهي شركة توجه ما يقرب من 20% من كل حركة الويب.

تقول الشركة الآن إن الانقطاع بدأ بتغيير صغير في تهيئة قاعدة البيانات تسبب عن طريق الخطأ في تضمين عناصر مكررة في ملف اكتشاف الروبوتات.

نما هذا الملف فجأة متجاوزًا حد الحجم الصارم. عندما حاولت خوادم Cloudflare تحميله، فشلت، وبدأت العديد من المواقع التي تستخدم Cloudflare في إرجاع أخطاء HTTP 5xx (رموز الخطأ التي يراها المستخدمون عندما يتعطل الخادم).

إليك سلسلة الأحداث البسيطة:

كيف تسبب ملف كمبيوتر واحد عن طريق الخطأ في تعطيل 20% من الإنترنت أمس – بلغة بسيطة image 0

سلسلة الأحداث

تعديل صغير في قاعدة البيانات يطلق سلسلة تفاعلات كبيرة.

بدأت المشكلة في الساعة 11:05 بالتوقيت العالمي عندما جعل تحديث الأذونات النظام يسحب معلومات إضافية ومكررة أثناء بناء الملف المستخدم لتقييم الروبوتات.

عادةً ما يتضمن هذا الملف حوالي ستين عنصرًا. دفعت العناصر المكررة العدد إلى ما بعد الحد الأقصى البالغ 200. عندما قامت الأجهزة عبر الشبكة بتحميل الملف الكبير، فشل مكون الروبوتات في البدء، وأرجعت الخوادم أخطاء.

وفقًا لـ Cloudflare، تأثرت كل من المسارات الحالية والقديمة للخوادم. أحدها أرجع أخطاء 5xx. والآخر أعطى درجة روبوت صفر، مما قد يؤدي إلى تصنيف حركة المرور بشكل خاطئ للعملاء الذين يحظرون بناءً على درجة الروبوت (اكتشاف الروبوت مقابل الإنسان في Cloudflare).

كان التشخيص صعبًا لأن الملف السيئ كان يُعاد بناؤه كل خمس دقائق من مجموعة قواعد بيانات يتم تحديثها قطعة بقطعة.

إذا سحب النظام من قطعة محدثة، كان الملف سيئًا. إذا لم يفعل، كان جيدًا. كانت الشبكة تتعافى ثم تفشل مرة أخرى مع تبديل الإصدارات.

وفقًا لـ Cloudflare، بدا هذا النمط المتقطع في البداية وكأنه هجوم DDoS محتمل، خاصةً أن صفحة حالة طرف ثالث فشلت أيضًا في نفس الوقت تقريبًا. تحول التركيز بمجرد ربط الفرق الأخطاء بتهيئة اكتشاف الروبوتات.

بحلول الساعة 13:05 بالتوقيت العالمي، طبقت Cloudflare تجاوزًا لـ Workers KV (فحوصات تسجيل الدخول) وCloudflare Access (نظام المصادقة)، لتوجيه الحركة بعيدًا عن السلوك الفاشل لتقليل التأثير.

جاء الإصلاح الرئيسي عندما توقفت الفرق عن إنشاء وتوزيع ملفات الروبوتات الجديدة، ودفعوا ملفًا معروفًا جيدًا، وأعادوا تشغيل الخوادم الأساسية.

تقول Cloudflare إن حركة المرور الأساسية بدأت بالتدفق بحلول الساعة 14:30، وتعافت جميع الخدمات التابعة بحلول الساعة 17:06.

يبرز الفشل بعض المفاضلات في التصميم.

تفرض أنظمة Cloudflare حدودًا صارمة للحفاظ على الأداء متوقعًا. يساعد ذلك في تجنب الاستخدام المفرط للموارد، لكنه يعني أيضًا أن ملفًا داخليًا مشوهًا يمكن أن يؤدي إلى توقف تام بدلاً من تراجع سلس.

نظرًا لأن اكتشاف الروبوتات يقع على المسار الرئيسي للعديد من الخدمات، فقد أدى فشل وحدة واحدة إلى سلسلة من الأعطال في CDN، وميزات الأمان، وTurnstile (بديل CAPTCHA)، وWorkers KV، وAccess، وتسجيلات الدخول للوحة التحكم. أشارت Cloudflare أيضًا إلى زيادة الكمون حيث استهلكت أدوات التصحيح وحدة المعالجة المركزية أثناء إضافة السياق للأخطاء.

من جانب قاعدة البيانات، كان لتعديل ضيق في الأذونات تأثيرات واسعة.

جعل التغيير النظام "يرى" المزيد من الجداول عن ذي قبل. لم يقم العمل الذي يبني ملف اكتشاف الروبوتات بتصفية الأعمدة بشكل كافٍ، لذا التقط أسماء أعمدة مكررة ووسع الملف إلى ما بعد حد 200 عنصر.

أدى خطأ التحميل بعد ذلك إلى فشل الخوادم واستجابات 5xx على المسارات المتأثرة.

تفاوت التأثير حسب المنتج. ألقت خدمات CDN والأمان الأساسية أخطاء الخادم.

شهد Workers KV معدلات 5xx مرتفعة لأن الطلبات إلى بوابته مرت عبر المسار الفاشل. واجه Cloudflare Access إخفاقات في المصادقة حتى تجاوز الساعة 13:05، وتوقفت تسجيلات الدخول للوحة التحكم عندما لم يتمكن Turnstile من التحميل.

فقدت Cloudflare Email Security مؤقتًا مصدر سمعة IP، مما قلل من دقة اكتشاف البريد العشوائي لفترة، رغم أن الشركة قالت إنه لم يكن هناك تأثير حرج على العملاء. بعد استعادة الملف الجيد، تسبب تراكم محاولات تسجيل الدخول لفترة وجيزة في إجهاد APIs الداخلية قبل أن تعود الأمور لطبيعتها.

الجدول الزمني واضح.

تم تطبيق تغيير قاعدة البيانات في الساعة 11:05 بالتوقيت العالمي. ظهرت أولى الأخطاء التي تواجه العملاء حوالي 11:20–11:28.

فتحت الفرق حادثة في الساعة 11:35، وطبقت تجاوز Workers KV وAccess في الساعة 13:05، وتوقفت عن إنشاء ونشر الملفات الجديدة حوالي 14:24، ودُفع ملف جيد معروف وشوهد التعافي العالمي بحلول 14:30، وتم إعلان الاستعادة الكاملة في 17:06.

وفقًا لـ Cloudflare، أبلغت الاختبارات الآلية عن شذوذ في الساعة 11:31، وبدأ التحقيق اليدوي في الساعة 11:32، مما يفسر التحول من الاشتباه في هجوم إلى التراجع عن التهيئة خلال ساعتين.

الوقت (UTC) الحالة الإجراء أو التأثير

11:05	تم نشر التغيير	تحديث أذونات قاعدة البيانات أدى إلى إدخالات مكررة
11:20–11:28	بدء التأثير	ارتفاع أخطاء HTTP 5xx مع تجاوز ملف الروبوتات حد 200 عنصر
13:05	التخفيف	تجاوز لـ Workers KV وAccess يقلل من سطح الخطأ
13:37–14:24	التحضير للتراجع	إيقاف نشر الملف السيئ، التحقق من الملف الجيد المعروف
14:30	التعافي الأساسي	تم نشر الملف الجيد، تعود حركة المرور الأساسية لطبيعتها
17:06	تم الحل	استعادة جميع الخدمات التابعة بالكامل

توضح الأرقام السبب والاحتواء.

أعاد دورة إعادة البناء كل خمس دقائق إدخال الملفات السيئة مع تحديث أجزاء قاعدة البيانات المختلفة.

يحمي حد 200 عنصر استخدام الذاكرة، وكان العدد المعتاد حوالي ستين، مما ترك مساحة مريحة حتى وصول الإدخالات المكررة.

عمل الحد كما هو مصمم، لكن غياب "تحميل آمن" متسامح للملفات الداخلية حول تهيئة سيئة إلى تعطل بدلاً من فشل ناعم مع نموذج احتياطي. وفقًا لـ Cloudflare، هذه منطقة رئيسية يجب تعزيزها.

تقول Cloudflare إنها ستعزز كيفية التحقق من صحة التهيئة الداخلية، وتضيف المزيد من مفاتيح الإيقاف العالمية لخطوط ميزات المنتجات، وتوقف تقارير الأخطاء عن استهلاك وحدة المعالجة المركزية بشكل كبير أثناء الحوادث، وتراجع معالجة الأخطاء عبر الوحدات، وتحسن كيفية توزيع التهيئة.

وصفت الشركة هذا بأنه أسوأ حادثة منذ 2019 واعتذرت عن التأثير. ووفقًا لـ Cloudflare، لم يكن هناك هجوم؛ جاء التعافي من إيقاف الملف السيئ، واستعادة ملف جيد معروف، وإعادة تشغيل عمليات الخادم.

ظهر المنشور كيف تسبب ملف كمبيوتر واحد عن طريق الخطأ في تعطيل 20% من الإنترنت بالأمس – بلغة إنجليزية بسيطة لأول مرة على CryptoSlate.

إخلاء المسؤولية: يعكس محتوى هذه المقالة رأي المؤلف فقط ولا يمثل المنصة بأي صفة. لا يُقصد من هذه المقالة أن تكون بمثابة مرجع لاتخاذ قرارات الاستثمار.

منصة PoolX: احتفظ بالعملات لتربح

ما يصل إلى 10% + معدل الفائدة السنوي. عزز أرباحك بزيادة رصيدك من العملات

احتفظ بالعملة الآن!