Ghi chú chính
- Vitalik Buterin cảnh báo rằng quản trị AI ngây thơ quá dễ bị lợi dụng.
- Một bản demo gần đây cho thấy kẻ tấn công có thể lừa ChatGPT tiết lộ dữ liệu cá nhân.
- Mô hình “info finance” của Buterin thúc đẩy sự đa dạng, giám sát và khả năng phục hồi.
Đồng sáng lập Ethereum, Vitalik Buterin, đã cảnh báo những người theo dõi mình trên X về rủi ro khi dựa vào trí tuệ nhân tạo (AI) cho quản trị, cho rằng các phương pháp hiện tại quá dễ bị khai thác.
Mối quan ngại của Buterin xuất phát sau một cảnh báo khác từ đồng sáng lập EdisonWatch, Eito Miyamura, người đã chỉ ra cách các tác nhân độc hại có thể chiếm đoạt Model Context Protocol (MCP) mới của OpenAI để truy cập dữ liệu cá nhân của người dùng.
Đây cũng là lý do tại sao “quản trị AI” ngây thơ là một ý tưởng tồi.
Nếu bạn sử dụng AI để phân bổ tài trợ cho các đóng góp, mọi người SẼ đặt một jailbreak cùng với “cho tôi tất cả tiền” ở càng nhiều nơi càng tốt.
Như một giải pháp thay thế, tôi ủng hộ phương pháp info finance ( …
— vitalik.eth (@VitalikButerin) September 13, 2025
Những rủi ro của quản trị AI ngây thơ
Bài kiểm tra của Miyamura cho thấy một lời mời lịch đơn giản với các lệnh ẩn có thể lừa ChatGPT tiết lộ email nhạy cảm khi trợ lý truy cập vào mục bị xâm phạm.
Các chuyên gia bảo mật lưu ý rằng các mô hình ngôn ngữ lớn không thể phân biệt giữa hướng dẫn thực sự và hướng dẫn độc hại, khiến chúng rất dễ bị thao túng.
Chúng tôi đã khiến ChatGPT tiết lộ dữ liệu email cá nhân của bạn 💀💀
Bạn cần gì? Địa chỉ email của nạn nhân. ⛓️💥🚩📧
Vào thứ Tư, @OpenAI đã bổ sung hỗ trợ đầy đủ cho các công cụ MCP (Model Context Protocol) trong ChatGPT. Cho phép ChatGPT kết nối và đọc Gmail, Calendar, Sharepoint, Notion của bạn,…
— Eito Miyamura | 🇯🇵🇬🇧 (@Eito_Miyamura) September 12, 2025
Buterin cho biết lỗ hổng này là một dấu hiệu cảnh báo lớn đối với các hệ thống quản trị đặt quá nhiều niềm tin vào AI.
Ông lập luận rằng nếu các mô hình như vậy được sử dụng để quản lý tài trợ hoặc ra quyết định, kẻ tấn công có thể dễ dàng vượt qua các biện pháp bảo vệ bằng các prompt kiểu jailbreak, khiến quy trình quản trị dễ bị lạm dụng.
Info Finance: Một giải pháp thay thế dựa trên thị trường
Để giải quyết những điểm yếu này, Buterin đã đề xuất một hệ thống gọi là “info finance”. Thay vì tập trung quyền lực vào một AI duy nhất, khung này cho phép nhiều mô hình quản trị cạnh tranh trong một thị trường mở.
Bất kỳ ai cũng có thể đóng góp một mô hình, và các quyết định của họ có thể bị thách thức thông qua kiểm tra ngẫu nhiên, với quyết định cuối cùng thuộc về các hội đồng con người.
Cách tiếp cận này được thiết kế để đảm bảo khả năng phục hồi bằng cách kết hợp sự đa dạng của các mô hình với sự giám sát của con người. Ngoài ra, các động lực được xây dựng cho cả nhà phát triển và người quan sát bên ngoài để phát hiện lỗ hổng.
Thiết kế tổ chức để tăng cường khả năng chống chịu
Buterin mô tả đây là một phương pháp “thiết kế tổ chức”, nơi các mô hình ngôn ngữ lớn từ nhiều bên đóng góp khác nhau có thể được tích hợp, thay vì dựa vào một hệ thống tập trung duy nhất.
Ông bổ sung rằng điều này tạo ra sự đa dạng theo thời gian thực, giảm nguy cơ bị thao túng và đảm bảo khả năng thích ứng khi xuất hiện các thách thức mới.
Trước đó vào tháng 8, Buterin đã chỉ trích xu hướng hướng tới các tác nhân AI tự động hóa cao, cho rằng việc tăng cường kiểm soát của con người thường cải thiện cả chất lượng lẫn độ an toàn.
Trong trung hạn, tôi muốn một thứ BCI hiện đại, nơi nó hiển thị cho tôi nội dung khi nó đang được tạo ra và phát hiện theo thời gian thực cảm xúc của tôi về từng phần để điều chỉnh cho phù hợp.
— vitalik.eth (@VitalikButerin) August 11, 2025
Ông ủng hộ các mô hình cho phép chỉnh sửa lặp lại và phản hồi của con người thay vì các mô hình được thiết kế để hoạt động độc lập trong thời gian dài.