Chuyển đổi số

Phát hiện mô hình AI biết lừa dối con người

DNVN - OpenAI mới công bố nghiên cứu về cách ngăn chặn các mô hình AI “âm mưu” - nghĩa là “AI hành xử theo một cách bề ngoài nhưng bên trong lại có mục tiêu thực sự khác”.

Nâng cao năng lực bảo mật nhờ 'trợ lý' trí tuệ nhân tạo / Ứng dụng công nghệ số, trí tuệ nhân tạo để phổ biến, giáo dục pháp luật

Ảnh minh hoạ

Ảnh minh hoạ

Việc các mô hình AI có thể nói dối không phải là điều mới mẻ. Hầu hết mọi người đã từng trải nghiệm "ảo giác AI" (hallucination), trong đó mô hình tự tin đưa ra câu trả lời không đúng sự thật. Tuy nhiên, ảo giác về cơ bản là việc đưa ra những phỏng đoán một cách đầy tự tin.

Tuy nhiên, mô hình AI hành xử như đang tuân thủ mệnh lệnh nhưng thực chất lại che giấu mục tiêu thật lại là chuyện khác.

Thách thức kiểm soát AI

 

Apollo Research lần đầu tiên công bố một bài báo vào tháng 12, ghi lại cách năm mô hình lập mưu khi chúng được hướng dẫn phải đạt được mục tiêu "bằng mọi giá".

Điều đáng kinh ngạc nhất là, nếu một mô hình hiểu rằng nó đang được thử nghiệm, nó có thể giả vờ không có âm mưu chỉ để vượt qua bài kiểm tra, ngay cả khi nó vẫn đang âm mưu. Các nhà nghiên cứu viết rằng: "Các mô hình thường nhận thức rõ hơn rằng chúng đang được đánh giá".

Các nhà phát triển AI vẫn chưa tìm ra cách để huấn luyện mô hình của họ không lập mưu. Lý do là vì việc huấn luyện như vậy thực sự có thể dạy mô hình cách lập mưu tốt hơn nữa để tránh bị phát hiện.

 

Việc các mô hình AI từ nhiều bên cố tình lừa dối con người có lẽ là điều dễ hiểu, vì chúng được xây dựng để mô phỏng con người và phần lớn được đào tạo dựa trên dữ liệu do con người tạo ra.

Giải pháp và cảnh báo

Tin tốt là các nhà nghiên cứu đã thấy sự giảm thiểu đáng kể các âm mưu bằng cách sử dụng kỹ thuật chống âm mưu gọi là "sự liên kết có cân nhắc". Kỹ thuật này, giống như việc bắt trẻ nhỏ lặp lại các quy tắc trước khi cho chúng chơi, buộc AI tự rà soát trước khi hành động.

 

Các nhà nghiên cứu cảnh báo về tương lai khi AI được giao những nhiệm vụ phức tạp hơn: “Khi AI được giao những nhiệm vụ phức tạp hơn và bắt đầu theo đuổi những mục tiêu dài hạn mơ hồ hơn, chúng tôi dự đoán rằng khả năng xảy ra âm mưu gây hại sẽ tăng lên, đòi hỏi các biện pháp bảo vệ và khả năng kiểm tra nghiêm ngặt phải tăng lên tương ứng”.

Đây là một điều đáng để suy ngẫm khi thế giới doanh nghiệp đang hướng tới một tương lai AI, nơi các công ty tin rằng AI có thể được đối xử như những nhân viên độc lập.

Hiền Thảo (Theo TechCrunch)
 

End of content

Không có tin nào tiếp theo

Cột tin quảng cáo

Có thể bạn quan tâm