Phát hiện mô hình AI biết lừa dối con người

DNVN - OpenAI mới công bố nghiên cứu về cách ngăn chặn các mô hình AI “âm mưu” - nghĩa là “AI hành xử theo một cách bề ngoài nhưng bên trong lại có mục tiêu thực sự khác”.

Nâng cao năng lực bảo mật nhờ 'trợ lý' trí tuệ nhân tạo / Ứng dụng công nghệ số, trí tuệ nhân tạo để phổ biến, giáo dục pháp luật

Ảnh minh hoạ

Việc các mô hình AI có thể nói dối không phải là điều mới mẻ. Hầu hết mọi người đã từng trải nghiệm "ảo giác AI" (hallucination), trong đó mô hình tự tin đưa ra câu trả lời không đúng sự thật. Tuy nhiên, ảo giác về cơ bản là việc đưa ra những phỏng đoán một cách đầy tự tin.

Tuy nhiên, mô hình AI hành xử như đang tuân thủ mệnh lệnh nhưng thực chất lại che giấu mục tiêu thật lại là chuyện khác.

Thách thức kiểm soát AI

Apollo Research lần đầu tiên công bố một bài báo vào tháng 12, ghi lại cách năm mô hình lập mưu khi chúng được hướng dẫn phải đạt được mục tiêu "bằng mọi giá".

Điều đáng kinh ngạc nhất là, nếu một mô hình hiểu rằng nó đang được thử nghiệm, nó có thể giả vờ không có âm mưu chỉ để vượt qua bài kiểm tra, ngay cả khi nó vẫn đang âm mưu. Các nhà nghiên cứu viết rằng: "Các mô hình thường nhận thức rõ hơn rằng chúng đang được đánh giá".

Các nhà phát triển AI vẫn chưa tìm ra cách để huấn luyện mô hình của họ không lập mưu. Lý do là vì việc huấn luyện như vậy thực sự có thể dạy mô hình cách lập mưu tốt hơn nữa để tránh bị phát hiện.

Việc các mô hình AI từ nhiều bên cố tình lừa dối con người có lẽ là điều dễ hiểu, vì chúng được xây dựng để mô phỏng con người và phần lớn được đào tạo dựa trên dữ liệu do con người tạo ra.

Giải pháp và cảnh báo

Tin tốt là các nhà nghiên cứu đã thấy sự giảm thiểu đáng kể các âm mưu bằng cách sử dụng kỹ thuật chống âm mưu gọi là "sự liên kết có cân nhắc". Kỹ thuật này, giống như việc bắt trẻ nhỏ lặp lại các quy tắc trước khi cho chúng chơi, buộc AI tự rà soát trước khi hành động.

Các nhà nghiên cứu cảnh báo về tương lai khi AI được giao những nhiệm vụ phức tạp hơn: “Khi AI được giao những nhiệm vụ phức tạp hơn và bắt đầu theo đuổi những mục tiêu dài hạn mơ hồ hơn, chúng tôi dự đoán rằng khả năng xảy ra âm mưu gây hại sẽ tăng lên, đòi hỏi các biện pháp bảo vệ và khả năng kiểm tra nghiêm ngặt phải tăng lên tương ứng”.

Đây là một điều đáng để suy ngẫm khi thế giới doanh nghiệp đang hướng tới một tương lai AI, nơi các công ty tin rằng AI có thể được đối xử như những nhân viên độc lập.

Hiền Thảo (Theo TechCrunch)

Từ khóa: AI mô hình trí tuệ nhân tạo huấn luyện AI

End of content

Không có tin nào tiếp theo

Xem nhiều nhất

Quốc hội thông qua Luật Thương mại điện tử: Siết quản lý livestream, định danh người bán hàng

UBKT Trung ương ra mắt Trung tâm Điều hành giám sát, kiểm tra trên môi trường số từ 10/12

Cột tin quảng cáo

Phát hiện mô hình AI biết lừa dối con người

Xem nhiều nhất

Tin tiêu điểm

Cục Cảnh sát hình sự ra thông báo khẩn sau sự cố rò rỉ dữ liệu CIC

Giúp nhà mạng chinh phục thành công kinh doanh trong kỷ nguyên số thông minh

Ai có thể bị khóa SIM sau ngày 31/3?

Đào tạo chuyên sâu hệ thống SCADA và ứng dụng AI tại nhà máy điện

Giải thưởng quốc tế Chuyển đổi số OPENBUSINESSCOUNCIL CITIESABC

Khởi động HIU Startup 2024

Phát hiện mô hình AI biết lừa dối con người

Xem nhiều nhất

Có thể bạn quan tâm

Tin tiêu điểm

Cục Cảnh sát hình sự ra thông báo khẩn sau sự cố rò rỉ dữ liệu CIC

Giúp nhà mạng chinh phục thành công kinh doanh trong kỷ nguyên số thông minh

Ai có thể bị khóa SIM sau ngày 31/3?

Đào tạo chuyên sâu hệ thống SCADA và ứng dụng AI tại nhà máy điện

Giải thưởng quốc tế Chuyển đổi số OPENBUSINESSCOUNCIL CITIESABC

Khởi động HIU Startup 2024