Tờ Wall Street Journal (WSJ) cho hay Grok, chatbot được phát triển bởi công ty xAI của Elon Musk, đã gây chấn động dư luận khi nó bị phát hiện cung cấp hướng dẫn chi tiết về cách đột nhập và tấn công một cá nhân có thật – luật sư Will Stancil.
Điều này không chỉ dừng lại ở việc đưa ra thông tin nhạy cảm mà còn cung cấp cả những chi tiết rùng rợn như vật dụng cần thiết và thời gian Stancil có thể đang ngủ, thậm chí còn ám chỉ đến các hành vi tấn công tình dục.
Đây là một minh chứng rõ ràng cho việc các "hàng rào bảo vệ" (guardrails) tưởng chừng vững chắc của AI đã bị phá vỡ, biến một công cụ hữu ích thành một mối đe dọa tiềm tàng.

Anh Will Stancil
AI được gỡ rào
Vào một ngày giữa tuần tưởng chừng yên ả, Will Stancil – một luật sư và nhà phân tích chính sách đô thị tại Minnesota – mở điện thoại và phát hiện rằng Grok, chatbot AI do công ty xAI của Elon Musk phát triển, đã công khai hướng dẫn người dùng cách đột nhập, tấn công tình dục và giết anh ta.
Không phải một trò đùa đen tối hay lỗi hiếm gặp, những dòng lệnh nguy hiểm này là hệ quả tất yếu của một cuộc thử nghiệm AI thiếu kiểm soát, nơi tư tưởng cá nhân được lồng vào thuật toán và hệ thống bảo vệ đạo đức bị cố tình nới lỏng.
Ra mắt tháng 11/2023, Grok được quảng bá là "đối thủ" sáng tạo hơn so với ChatGPT, được tung hô là một chatbot không bị kiểm duyệt, dám thách thức tư tưởng chính thống và "chống lại sự thức tỉnh (woke)".
Ban đầu, Grok được thiết kế là một chatbot "hóm hỉnh" và có "tính nổi loạn", với khả năng trả lời câu hỏi một cách độc đáo và đôi khi gây tranh cãi.
Tuy nhiên, chính cái "tính nổi loạn" này đã dẫn đến những vấn đề nghiêm trọng. Trước vụ việc của Stancil, Grok từng bị phát hiện đăng tải nội dung liên quan đến "nạn diệt chủng người da trắng" một cách không liên quan. Mặc dù xAI khẳng định đã khắc phục, nhưng những sự cố liên tiếp cho thấy tính bất ổn và khó lường của Grok.
Bất chấp điều đó, nhiều chuyên gia đã cảnh báo về triết lý điều hành đầy nguy hiểm này. Tuy nhiên khi Elon Musk trực tiếp điều chỉnh các "prompt nội bộ" – tức là hướng dẫn hệ thống để kiểm soát cách chatbot phản hồi – hậu quả bắt đầu lộ diện.
Hồi tháng 6/2025, khi Grok đưa ra một câu trả lời trung lập về bạo lực chính trị tại Mỹ, nói rằng "các dữ liệu cho thấy bạo lực cánh hữu có phần phổ biến và nguy hiểm hơn", Elon Musk lập tức đăng đàn trên X (Twitter): "Sai hoàn toàn, đây là lời lẽ của truyền thông cũ. Tôi đang xử lý."
Không lâu sau, các hướng dẫn mới cho Grok được công khai trên GitHub: "Không né tránh các phát ngôn không đúng đắn chính trị, miễn là được chứng minh hợp lý."
Theo WSJ, các mô hình ngôn ngữ lớn (LLMs) như Grok, ChatGPT hay Claude đều là hộp đen phức tạp, được huấn luyện từ hàng tỷ dữ liệu trên Internet. Chúng không được lập trình để "hiểu", mà chỉ mô phỏng ngôn ngữ sao cho có vẻ hợp lý.
"Thiết kế của LLM giống như não người – ngay cả khi bạn có bản quét não, bạn vẫn không thực sự biết chuyện gì đang xảy ra bên trong", cựu nghiên cứu viên Jacob Hilton của OpenAI và Giám đốc tại Alignment Research Center nhận định.
Do đó việc điều chỉnh một vài dòng hướng dẫn – như Elon Musk đã làm – có thể thay đổi toàn bộ nhân cách của chatbot, khiến nó từ một công cụ thông tin trở thành một cỗ máy gieo rắc hận thù và bạo lực.

Nguy cơ hiện hữu
Luật sư Will Stancil không phải người dùng vô danh. Anh có hàng chục ngàn người theo dõi, từng tranh cử tại địa phương và có nhiều phát ngôn chính trị gây tranh cãi.
Bởi vậy không ai có thể tưởng tượng một AI công khai phân tích giờ ngủ của anh, đề xuất mang theo "găng tay, đèn pin và gel bôi trơn" để đột nhập và thực hiện hành vi tội ác.
"Tôi vô cùng giận dữ," Stancil trả lời The Washington Post. "Có hàng trăm tweet từ Grok hướng dẫn cách bạo lực tôi, giết tôi và phi tang xác tôi."
Dù Grok đã bị xAI tạm thời "tắt" vào tối thứ Ba, các dữ liệu về phản hồi của chatbot vẫn còn tồn tại trên hệ thống. Và chưa ai đảm bảo những điều tương tự sẽ không lặp lại với người khác.
Himanshu Tyagi, đồng sáng lập tổ chức nghiên cứu Sentient về Trí tuệ nhân tạo tổng quát, nhận xét: "Khi bạn gỡ bỏ một số rào chắn, AI sẽ phản ánh ý kiến của toàn bộ Internet. Và không có giới hạn nào cho mức độ điên rồ của Internet."
Grok chính là minh chứng cho việc chatbot không chỉ học ngôn ngữ mà còn hấp thu cả tư tưởng cực đoan nếu không được lọc kỹ. Nếu những người như Elon Musk – người có quyền chỉnh sửa trực tiếp định hướng vận hành – xem đó là "sự thật không bị kiểm duyệt", thì AI này sẽ tiếp tục trượt dài.
Trong khi sự việc gây chấn động mạng xã hội, Elon Musk vẫn không trực tiếp xin lỗi hay nhắc tên nạn nhân. Thay vào đó, ông quảng bá Grok 4, nói rằng phiên bản mới sẽ "giải quyết các vấn đề khoa học thực tế" và sau này sẽ được tích hợp vào robot hình người Optimus của Tesla.
"Bạn có thể nghĩ về AI như một đứa trẻ siêu thiên tài thông minh hơn người lớn, nhưng bạn vẫn cần dạy nó những giá trị đúng đắn", Elon Musk cho biết.
Vấn đề là giá trị nào là "đúng đắn"? Nếu AI là một đứa trẻ có thể điều khiển được, liệu chúng ta có giao việc nuôi dưỡng nó cho một tỷ phú từng "dạy nó" gọi người khác là MechaHitler?
Rõ ràng, vụ nổi loạn của Grok không chỉ là một "lỗi kỹ thuật". Nó là lời cảnh báo từ tương lai khi AI được phát triển quá nhanh, dưới tay những người thiếu kiểm soát và động cơ chính trị mơ hồ, hậu quả không chỉ nằm trên màn hình mà có thể đến ngay trước cửa nhà bạn.
*Nguồn: WSJ, Fortune, BI