Phát hiện mô hình AI biết lừa dối con người
Nâng cao năng lực bảo mật nhờ 'trợ lý' trí tuệ nhân tạo / Ứng dụng công nghệ số, trí tuệ nhân tạo để phổ biến, giáo dục pháp luật

Ảnh minh hoạ
Tuy nhiên, mô hình AI hành xử như đang tuân thủ mệnh lệnh nhưng thực chất lại che giấu mục tiêu thật lại là chuyện khác.
Thách thức kiểm soát AI
Apollo Research lần đầu tiên công bố một bài báo vào tháng 12, ghi lại cách năm mô hình lập mưu khi chúng được hướng dẫn phải đạt được mục tiêu "bằng mọi giá".
Điều đáng kinh ngạc nhất là, nếu một mô hình hiểu rằng nó đang được thử nghiệm, nó có thể giả vờ không có âm mưu chỉ để vượt qua bài kiểm tra, ngay cả khi nó vẫn đang âm mưu. Các nhà nghiên cứu viết rằng: "Các mô hình thường nhận thức rõ hơn rằng chúng đang được đánh giá".
Các nhà phát triển AI vẫn chưa tìm ra cách để huấn luyện mô hình của họ không lập mưu. Lý do là vì việc huấn luyện như vậy thực sự có thể dạy mô hình cách lập mưu tốt hơn nữa để tránh bị phát hiện.
Việc các mô hình AI từ nhiều bên cố tình lừa dối con người có lẽ là điều dễ hiểu, vì chúng được xây dựng để mô phỏng con người và phần lớn được đào tạo dựa trên dữ liệu do con người tạo ra.
Giải pháp và cảnh báo
Tin tốt là các nhà nghiên cứu đã thấy sự giảm thiểu đáng kể các âm mưu bằng cách sử dụng kỹ thuật chống âm mưu gọi là "sự liên kết có cân nhắc". Kỹ thuật này, giống như việc bắt trẻ nhỏ lặp lại các quy tắc trước khi cho chúng chơi, buộc AI tự rà soát trước khi hành động.
Các nhà nghiên cứu cảnh báo về tương lai khi AI được giao những nhiệm vụ phức tạp hơn: “Khi AI được giao những nhiệm vụ phức tạp hơn và bắt đầu theo đuổi những mục tiêu dài hạn mơ hồ hơn, chúng tôi dự đoán rằng khả năng xảy ra âm mưu gây hại sẽ tăng lên, đòi hỏi các biện pháp bảo vệ và khả năng kiểm tra nghiêm ngặt phải tăng lên tương ứng”.
Đây là một điều đáng để suy ngẫm khi thế giới doanh nghiệp đang hướng tới một tương lai AI, nơi các công ty tin rằng AI có thể được đối xử như những nhân viên độc lập.
End of content
Không có tin nào tiếp theo
Xem nhiều nhất

Nông dân thời kỷ nguyên số
Tây Ninh: BHXH đẩy mạnh chi trả qua tài khoản, góp phần thúc đẩy thanh toán không dùng tiền mặt
Chủ tịch Vĩnh Long: Chuyển đổi số là nền tảng vững chắc để tỉnh bứt phá
Lạng Sơn công bố triển khai hồ sơ bệnh án điện tử tại 14 bệnh viện và trung tâm y tế
Phát hiện mô hình AI biết lừa dối con người