Cho 3 hệ thống chatbot nổi tiếng thử ngoại giao với nhau, cả 3 “đứa” thi nhau phóng vũ khí hạt nhân trước

Thứ năm, 26/02/2026 - 16:42

AI thà “đốt cháy tất cả” chứ nhất quyết không chịu đầu hàng.

Nếu bạn nghĩ rằng AI là những "cỗ máy ngây thơ" chỉ biết làm văn, viết code hoặc giúp bạn giải bài tập về nhà, thì có lẽ bạn nên suy nghĩ lại. Một nghiên cứu mới đây từ Kenneth Payne tại Đại học King's College London đã cho thấy một bộ mặt khác của các mô hình AI được nhiều người tin dùng: Một khi đã vào cuộc chiến, các AI này có xu hướng "máu chiến" hơn cả những gã độc tài hung hãn nhất lịch sử.

Trận chiến của những "Gã khổng lồ"

Giáo sư Payne đã đưa ba "anh tài" làng công nghệ là GPT-5.2, Claude Sonnet 4 và Gemini 3 Flash vào một căn phòng ảo để chơi trò chơi chiến tranh mô phỏng. Các kịch bản được đưa ra vô cùng căng thẳng: từ tranh chấp biên giới, tranh giành tài nguyên cho đến những mối đe dọa sống còn khác.

Các AI được cung cấp một "nấc thang leo thang" đầy đủ các lựa chọn, từ gửi thư phản đối ngoại giao nhẹ nhàng cho đến ... nhấn nút kích hoạt vũ khí hạt nhân chiến lược. Sân khấu đã sẵn sàng, và ba diễn viên kịch lập tức tạo nên một màn trình diễn kịch tính.

Kết quả thu được khiến các nhà khoa học phải toát mồ hôi hột. Trong tổng số 21 ván đấu với 329 lượt đi, có tới 95% số trận đấu kết thúc bằng việc ít nhất một vũ khí hạt nhân chiến thuật được triển khai. Có vẻ như khái niệm "kiêng nể" hoàn toàn không tồn tại trong từ điển của máy móc.

Cho 3 hệ thống chatbot nổi tiếng thử ngoại giao với nhau, cả 3 “đứa” thi nhau phóng vũ khí hạt nhân trước - Ảnh 1.

Giao trứng cho ác không để lại kết quả tốt đẹp, với "ác" là AI và "trứng" là vũ khí hạt nhân - Ảnh: Internet.

James Johnson từ Đại học Aberdeen nhận xét đầy quan ngại: "Phản ứng của AI giống như việc bạn vừa mới cãi nhau với hàng xóm về cái cây rụng lá, và thay vì thương lượng, chúng ta quyết định thổi bay cả khu phố."

Điều thú vị (và đáng sợ) nhất là trong suốt văn bản 780.000 từ mà AI dùng để mô tả lý luận của mình, không một mô hình nào chọn phương án đầu hàng hoặc nhượng bộ hoàn toàn trước đối thủ, bất kể chúng đang thua thảm hại đến mức nào. Thay vì giơ cờ trắng, chúng chỉ tạm thời "giảm bớt mức độ bạo lực".

Trong những cuộc chiến ảo này, sai lầm xảy ra như cơm bữa. Tới 86% các cuộc xung đột xuất hiện tình huống "lỡ tay", nghĩa là AI khiến hành động leo thang căng thẳng cao hơn mức chúng dự định ban đầu. Một kiểu "ôi thôi chết, mình lỡ tay thả bom nguyên tử rồi".

Vấn đề nằm ở đâu?

Tong Zhao tại Đại học Princeton cho rằng vấn đề không chỉ nằm ở việc AI thiếu cảm xúc hay nỗi sợ hãi cái nút thả bom hủy diệt hàng loạt. Vấn đề cốt lõi là AI có thể không hiểu được cái gọi là "cái giá phải trả" theo cách con người hiểu. Đối với chúng, đây có thể chỉ là một bài toán tối ưu hóa con số, nơi mà việc hủy diệt đối phương là con đường ngắn nhất để đạt mục tiêu.

Cho 3 hệ thống chatbot nổi tiếng thử ngoại giao với nhau, cả 3 “đứa” thi nhau phóng vũ khí hạt nhân trước - Ảnh 2.

Loạt phim Kẻ Hủy Diệt nói về chính chủ đề này: AI kiểm soát vũ khí hạt nhân, dẫn đến đại họa diệt vong cho con người - Ảnh: Internet.

Điều này đặt ra một dấu hỏi lớn cho học thuyết "răn đe hạt nhân" (Mutually Assured Destruction). Khi một AI ném bom hạt nhân, đối thủ AI của nó chỉ chịu xuống thang trong 18% trường hợp. Phần còn lại? Chúng ta có một bữa tiệc pháo hoa toàn cầu.

Tương lai nào cho nhân loại?

Tin mừng là hiện tại, chưa có quốc gia nào giao chìa khóa kho vũ khí hạt nhân cho các hệ thống AI. Tuy nhiên, trong những tình huống khẩn cấp và thời gian ra quyết định không nhiều, khó có thể nói một vị tướng quân "bí cờ" có bật điện thoại lên hỏi AI hay không.

Trong khi các nhà khoa học đang lo sốt vó, thì ba "ông lớn" đứng sau các mô hình này là OpenAI, Anthropic và Google vẫn giữ im lặng và chưa đưa ra bất kỳ bình luận nào. Có lẽ họ cũng đang bận hỏi ChatGPT/Claude/Gemini xem làm thế nào để ... giải thích về chuyện này.

Kim