Toàn bộ Internet biến mất chỉ sau một đêm
Tóm lại Một lỗi cấu hình tại Cloudflare vào ngày 18 tháng 11 đã gây ra sự cố ngừng hoạt động liên tục, tạm thời làm gián đoạn các dịch vụ chính như X, ChatGPT, Spotify và Uber trên toàn thế giới.
Hãy tưởng tượng thế này: bạn thức dậy, cầm điện thoại và chạm vào các biểu tượng thông thường. X không tải được. ChatGPT không trả lời câu hỏi của bạn. YouTube không hiển thị video của bạn. Thậm chí Downdetector , trang web mà bạn thường sử dụng để kiểm tra xem có thứ gì bị hỏng không, thì… bị hỏng.
Trong vài giờ vào ngày 18 tháng 11, đó là hiện thực đối với hàng triệu người trên khắp thế giới. sự cố ngừng hoạt động lớn tại Cloudflare , một trong những công ty cơ sở hạ tầng quan trọng đằng sau internet hiện đại, đã gỡ bỏ hoặc làm suy yếu nhiều dịch vụ, bao gồm X, ChatGPT, Spotify, Uber, Canva, Liên minh huyền thoại và nhiều hơn nữa.
Cảm giác như "toàn bộ internet" đã biến mất. Trên thực tế, nó nhỏ bé và đáng sợ hơn nhiều: chỉ một lỗi nhỏ trong hệ thống của một công ty có thể lan rộng ra toàn bộ mạng lưới.
Điều gì thực sự đã xảy ra sai ở Cloudflare
Sự cố bắt đầu vào sáng sớm thứ Ba (18/11) giờ Mỹ. Khoảng 6:20 sáng giờ ET, Cloudflare nhận thấy lưu lượng truy cập bất thường tăng đột biến qua một trong các hệ thống của mình. Chỉ vài phút sau, các trang web dựa trên Cloudflare bắt đầu ném "lỗi máy chủ nội bộ" các trang và thời gian chờ cho người dùng trên toàn cầu.
Khi các báo cáo về sự cố ngừng hoạt động tràn lan trên Downdetector và mạng xã hội, Cloudflare đã đăng rằng họ "đã biết và đang điều tra" sự cố ảnh hưởng đến nhiều khách hàng. Các kỹ sư cuối cùng đã xác định được thủ phạm và đưa ra bản sửa lỗi, và lưu lượng truy cập dần trở lại bình thường khoảng ba giờ sau khi sự cố bắt đầu.
Công ty nhấn mạnh một điểm quan trọng: không có dấu hiệu nào của một cuộc tấn công mạng. Đây không phải là một vụ tấn công DDoS, một sự cố ransomware, hay một tác nhân nhà nước. Nó là một lỗi kỹ thuật nội bộ Tuy nhiên, đối với người dùng, nguyên nhân không quan trọng. Trải nghiệm của họ rất đơn giản: Internet ngừng hoạt động.
Cloudflare làm gì (và tại sao bạn chưa bao giờ nghe đến nó)
Hầu hết mọi người không bao giờ ghé thăm cloudflare.com là cố ý, nhưng họ vẫn chạm vào mạng của bạn mỗi ngày. Cloudflare nằm giữa "đường dẫn" internet giữa bạn và các trang web bạn sử dụng. Nói một cách đơn giản, Cloudflare:
- Tăng tốc các trang web bằng cách lưu trữ nội dung và định tuyến lưu lượng truy cập hiệu quả (mạng phân phối nội dung hoặc CDN);
- Bảo vệ họ khỏi các cuộc tấn công DDoS và bot độc hại;
- Kiểm tra giao thông để quyết định xem giao thông nào an toàn và giao thông nào không.
Công ty cho biết họ xử lý giao thông cho khoảng một phần năm của tất cả các trang web trên toàn thế giới. Nó cũng xử lý một lượng lớn yêu cầu HTTP mỗi giây, âm thầm hoạt động như người bảo vệ và cảnh sát giao thông cho phần lớn trang web.
Quy mô đó thật tuyệt vời khi mọi thứ đều hoạt động tốt. Khi không hoạt động tốt, toàn bộ Internet có thể đột nhiên trở nên mong manh.
Tệp tin nhỏ gây ra sự cố
Bản báo cáo hậu sự của Cloudflare kể một câu chuyện bình thường đến ngạc nhiên. Một tệp cấu hình (về cơ bản là một tập hợp các quy tắc) được bot và hệ thống quản lý mối đe dọa của họ sử dụng đã được tự động tạo ra. Theo thời gian, tập tin đó đã lớn hơn hơn những gì các kỹ sư mong đợi.
Đến một lúc nào đó, nó đã vượt quá giới hạn cứng của phần mềm chịu trách nhiệm xử lý lưu lượng cho một số dịch vụ Cloudflare. Do một lỗi tiềm ẩn trong mã đó, hệ thống đã không bị lỗi một cách bình thường. Thay vào đó,... tập tin đã gây ra sự cố trong một thành phần xử lý giao thông cốt lõi.
Từ đó, mọi chuyện trở nên tồi tệ hơn:
- Tính năng quản lý bot đã cố gắng áp dụng cấu hình mới quá lớn;
- Quá trình này liên tục bị lỗi thay vì từ chối tệp;
- Sự cố này lan rộng sang nhiều dịch vụ khác phụ thuộc vào cùng một phần mềm;
- Khi nhiều nút gặp lỗi, một phần lớn mạng lưới Cloudflare bắt đầu trả về lỗi thay vì các trang web.
Giám đốc công nghệ của Cloudflare, Dane Knecht, gọi sự cố mất điện là "không thể chấp nhận được" và cho biết công ty đã "làm thất vọng" khách hàng và toàn thể internet, hứa hẹn sẽ có những thay đổi để một lỗi cấu hình duy nhất không thể gây ra phản ứng dây chuyền tương tự một lần nữa.
Sự cố mất điện đang trở nên tồi tệ hơn hay chỉ ồn ào hơn?
Nếu bạn cảm thấy những sự cố này xảy ra thường xuyên hơn, bạn không phải là người duy nhất. Sự cố ngừng hoạt động của Cloudflare này chỉ vài tuần sau khi sự cố lớn của Amazon Web Services đánh sập hàng nghìn trang web và ứng dụng, từ Snapchat và Reddit đến các công cụ nội bộ mà doanh nghiệp sử dụng hàng ngày.
Các công ty giám sát mạng đã theo dõi các vụ gián đoạn mạng quy mô lớn trên internet trong nhiều năm. Dữ liệu của họ cho thấy một điều tinh tế:
- Số lượng sự cố mất điện lớn mỗi năm không hề tăng đột biến;
- Nhưng tác động của mỗi lần mất điện ngày càng lớn hơn vì ngày càng có nhiều dịch vụ phụ thuộc vào cùng một nhà cung cấp trung tâm.
Hai mươi năm trước, nếu máy chủ email của công ty bạn gặp sự cố, cả ngày của bạn sẽ bị hủy hoại, nhưng chỉ đối với công ty bạn. Ngày nay, khi Cloudflare hoặc AWS gặp sự cố vào buổi sáng, hàng triệu người dùng và doanh nghiệp sẽ cùng lúc cảm nhận điều đó.
Hơn nữa, giờ đây mọi người lại đăng tải mọi lỗi lên X, Reddit và TikTok. Những sự cố từng được coi là "vấn đề bảo trì" một cách lặng lẽ giờ đây trông như những cuộc khủng hoảng toàn cầu.
Ít nhà cung cấp hơn, rủi ro lớn hơn
Sự cố ngừng hoạt động của Cloudflare nằm trong một mô hình lặp lại mà chúng tôi đã thấy với AWS, Azure và các công ty cơ sở hạ tầng lớn khác:
- Một thay đổi nhỏ bên trong (điều chỉnh cấu hình, cập nhật phần mềm, tập lệnh hoạt động không bình thường) sẽ tương tác với một số giả định ẩn trong hệ thống;
- Việc xử lý lỗi không phát hiện được sớm;
- Hệ thống tự động khuếch đại vấn đề thay vì ngăn chặn nó;
- Sự cố này ảnh hưởng đến một lượng lớn khách hàng đều phụ thuộc vào cùng một nền tảng.
Chúng tôi đã tối ưu hóa Internet về tốc độ, chi phí và quy mô toàn cầu. Cách dễ nhất để đạt được những điều này là sử dụng một số nhà cung cấp lớn với trung tâm dữ liệu ở khắp mọi nơi và đội ngũ kỹ thuật đẳng cấp thế giới.
Cái giá phải trả là sự tập trung. Khi một ISP địa phương gặp sự cố, cả thị trấn sẽ bị mất kết nối. Khi Cloudflare gặp sự cố, dường như toàn bộ internet đã biến mất.
Các nhà lãnh đạo công nghệ nói gì về vụ tai nạn
Mặc dù Elon Musk không bình luận trực tiếp về lỗi Cloudflare, ông đã nhiều lần cảnh báo về cơ sở hạ tầng kỹ thuật số quá tập trung, đặc biệt là liên quan đến khả năng phục hồi của X và sự chuyển dịch sang các hệ thống tự lưu trữ của nó. Trong giai đoạn 2023-2025, ông thường chỉ ra rằng việc dựa vào một nhà cung cấp để vận hành phần lớn internet là "vấn đề điểm lỗi đơn", một lời chỉ trích mà ông đã áp dụng cho AWS, Apple, Google, các lớp kiểu Cloudflare, và thậm chí cả các nhà mạng di động.
CTO của Cloudflare đã đưa ra phản ứng mạnh mẽ và rõ ràng nhất về sự cố ngừng hoạt động. Knecht đã công khai xin lỗi và nói rằng sự cố này là "không thể chấp nhận được" vì rất nhiều tổ chức và người dùng đang phụ thuộc vào cơ sở hạ tầng của Cloudflare. Ông cũng nhấn mạnh rằng nguyên nhân không phải là một cuộc tấn công, mà là một lỗi cấu hình gây ra lỗi lan truyền, điều mà ông mô tả là ưu tiên hàng đầu cần ngăn chặn trong tương lai.
Jeff Barr, Nhà truyền bá chính của Amazon Web Services, đã không đề cập đến sự cố ngừng hoạt động của Cloudflare, nhưng ông thường xuyên thảo luận về sự cố ngừng hoạt động của AWS và mô hình chung đằng sau những thất bại trên quy mô toàn cầu. Thông điệp lâu đời của ông: hệ thống càng kết nối chặt chẽ và quy trình càng tự động hóa thì nguy cơ xảy ra lỗi lan truyền càng lớn.
Và cuối cùng, CEO của Cloudflare, Matthew Prince, đã lên tiếng. Ông đã nói nhiều năm về kiến trúc tinh tế của Internet, đặc biệt là những bộ phận không ai nhận ra cho đến khi chúng bị hỏng. Ông thường lập luận rằng sức khỏe cốt lõi của web phụ thuộc vào khả năng phục hồi chứ không phải sự hoàn hảo.
Ông đã lặp lại những chủ đề như:
- Mối đe dọa lớn nhất là do cấu hình nội bộ không đúng, chứ không phải do kẻ tấn công;
- Tính dự phòng phải được tích hợp vào mọi lớp;
- Mạng Internet được kết nối với nhau bằng “một lượng băng keo khổng lồ”.
Ông không đưa ra tuyên bố công khai dài dòng nào ngay sau sự cố mất điện này, nhưng những chủ đề trong các cuộc phỏng vấn trước đây của ông đều áp dụng trực tiếp.
Tuyên bố miễn trừ trách nhiệm: Mọi thông tin trong bài viết đều thể hiện quan điểm của tác giả và không liên quan đến nền tảng. Bài viết này không nhằm mục đích tham khảo để đưa ra quyết định đầu tư.
Bạn cũng có thể thích
Uniswap duyệt UNIFication; hợp đồng phí vào thưởng 15,5 triệu USD
Bitcoin vượt mốc 91.000 USD, tăng 0,06% trong ngày
Bitcoin trở lại mốc 90.000 USD: Đà tăng còn kéo dài bao lâu?

BTC Phục Hồi Về 90K, Tether Bị Down Grade, JPMorgan Ra Mắt Sản Phẩm Bitcoin ETF
Thị trường chứng khoán Mỹ và BTC tiếp tục hồi phục. Các nhà đầu tư đã nhận thêm tin về việc làm Mỹ được báo cáo có xu hướng tốt cho việc thúc đẩy Fed giảm lãi suất.
