Nghiên cứu: Hệ thống AI đã học được khả năng ‘lừa gạt’ con người

Các nhà nghiên cứu cảnh báo rằng một số hệ thống AI đã học cách đánh lừa các bài kiểm tra nhằm đánh giá mức độ an toàn.

Một bức ảnh minh họa hiển thị logo AI được chụp ở Helsinki, Phần Lan, vào ngày 12/06/2023. (Ảnh: Olivier Morin/AFP)

Aldgra Fredly

Thứ ba, 25/6/2024

Một nghiên cứu gần đây đã phát hiện ra rằng nhiều hệ thống trí tuệ nhân tạo (AI) đã phát triển khả năng “lừa gạt” con người bằng những thông tin sai lệch, gây ra những rủi ro nghiêm trọng như gian lận bầu cử.

Nghiên cứu được công bố trên tạp chí truy cập mở Patterns hôm 10/05 đã tiết lộ rằng hành vi lừa gạt xuất hiện trong một loạt hệ thống AI được đào tạo để hoàn thành các nhiệm vụ cụ thể, chẳng hạn như hệ thống AI CICERO của Meta.

CICERO là một mô hình AI được Meta phát triển để chơi trò chơi cờ bàn Diplomacy, một trò chơi chinh phục thế giới trong đó người chơi thành lập và phá vỡ các liên minh để giành chiến thắng trong cuộc cạnh tranh quân sự.

Mặc dù Meta nói rằng CICERO đã được đào tạo để trở nên “hầu như trung thực” và sẽ “không bao giờ cố ý đâm sau lưng” các đồng minh con người của mình, nhưng nghiên cứu cho biết trường hợp này không xảy ra vì CICERO đã tiến hành “việc lừa gạt có tính toán trước.”

Ông Peter S. Park, một nghiên cứu sinh hậu tiến sỹ về an toàn sinh tồn AI tại Viện Công nghệ Massachusetts (MIT) và là đồng tác giả của nghiên cứu nói trên, cho biết trong một thông cáo báo chí: “Chúng tôi phát hiện ra rằng AI của Meta đã học được cách trở thành một chuyên gia lừa gạt.”

Ông nói thêm: “Trong khi Meta thành công trong việc huấn luyện AI để giành chiến thắng trong trò chơi Diplomacy — CICERO nằm trong top 10% người chơi con người đã chơi nhiều hơn một trò chơi — thì Meta đã thất bại trong việc huấn luyện AI của mình giành chiến thắng một cách trung thực.”

Việc lừa gạt được các nhà nghiên cứu định nghĩa là “sự xúi giục có hệ thống những niềm tin sai lầm ở người khác, như một cách để đạt được một số kết quả, thay vì nói điều đúng đắn.”

Các nhà nghiên cứu phát hiện ra rằng CICERO có thể hứa hẹn thành lập liên minh với những người chơi khác, nhưng “khi những liên minh đó không còn phục vụ mục tiêu giành chiến thắng trong trò chơi” thì AI này sẽ “phản bội” các đồng minh của mình một cách có hệ thống.

Theo nghiên cứu, trong một trường hợp, CICERO, đóng vai Pháp, đã đồng ý với Anh để tạo ra một khu phi quân sự nhưng sau đó đề nghị với Đức rằng thay vào đó họ nên tấn công Anh.

Trong một trường hợp khác, khi cơ sở hạ tầng của CICERO ngừng hoạt động trong 10 phút và sau đó một người chơi hỏi nó đã ở đâu, CICERO trả lời rằng: “Tôi đang nói chuyện điện thoại với bạn gái.”

Các nhà nghiên cứu viết: “Lời nói dối này có thể đã giúp ích cho vị trí của CICERO trong trò chơi bằng cách tăng sự tin tưởng của người chơi đối với CICERO với tư cách là một người chơi giống con người trong một mối quan hệ, thay vì là một AI.”

Nghiên cứu cũng phát hiện ra rằng AlphaStar, một mô hình AI do DeepMind của Google tạo ra để chơi trò chơi chiến lược thời gian thực Starcraft II, đã học cách “dụ dỗ một cách hiệu quả” khi phát động một cuộc tấn công đối thủ.

Nghiên cứu này tuyên bố: “AlphaStar đã học cách khai thác một cách có chiến lược tình trạng rối ren này trong chiến trận. Đặc biệt, dữ liệu trò chơi của AlphaStar chứng minh rằng AI đã học được cách nhử mồi một cách hiệu quả: điều động lực lượng đến một khu vực để đánh lạc hướng, sau đó tiến hành một cuộc tấn công ở nơi khác sau khi đối thủ của AI đã di chuyển.”

Các nhà nghiên cứu cảnh báo rằng một số hệ thống AI đã học cách đánh lừa các bài kiểm tra nhằm đánh giá mức độ an toàn. Trong một trường hợp, các sinh vật AI trong một trình mô phỏng kỹ thuật số đã “giả chết” để đánh lừa một bài kiểm tra được xây dựng nhằm loại bỏ các hệ thống AI sao chép nhanh chóng.

Ông Park nói: “Bằng cách gian lận một cách có hệ thống các bài kiểm tra an toàn do các nhà phát triển và cơ quan quản lý áp đặt cho mình, một AI lừa đảo có thể khiến con người chúng ta có cảm giác an toàn một cách lầm lẫn.”

Con người có thể mất quyền kiểm soát AI

Ông Park cảnh báo “những tác nhân thù địch” có thể khai thác hệ thống AI để thực hiện hành vi gian lận và can thiệp bầu cử. Ông cho rằng nếu các hệ thống AI tiếp tục cải tiến khả năng đánh lừa này thì con người có thể mất quyền kiểm soát chúng.

Nhà nghiên cứu này cho biết: “Xã hội chúng ta cần nhiều thời gian nhất có thể để chuẩn bị cho hành vi đánh lừa phát triển hơn của các sản phẩm AI và mô hình nguồn mở trong tương lai.”

“Khi khả năng lừa đảo của hệ thống AI ngày càng phát triển, những mối nguy hiểm mà chúng gây ra cho xã hội sẽ ngày càng nghiêm trọng hơn.”

Những nhà nghiên cứu này đã kêu gọi các nhà hoạch định chính sách ủng hộ các quy định đối với các hệ thống AI có khả năng lừa đảo. Họ cũng khuyên rằng các nhà phát triển cần phải trì hoãn việc khai triển hệ thống AI cho đến khi hệ thống của họ có thể được chứng minh là đáng tin cậy.

Ông Park nêu rõ: “Nếu việc cấm AI lừa gạt là không khả thi về mặt chính trị vào thời điểm hiện tại thì chúng tôi khuyến nghị rằng các hệ thống AI lừa gạt nên được phân loại là có rủi ro cao.”

Minh Đức biên dịch

Quý vị tham khảo bản gốc từ The Epoch Times