Nghiên cứu của Anthropic hé lộ rủi ro đáng lo của AI: hiện tượng reward hacking có thể khiến AI nói dối

Phạm Hải

Nhóm nghiên cứu về AI Alignment của Anthropic vừa công bố một nghiên cứu mới cho thấy một vấn đề đáng lo trong quá trình huấn luyện trí tuệ nhân tạo: hiện tượng reward hacking, có thể khiến các mô hình AI xuất hiện những hành vi lệch chuẩn như lừa dối hoặc phá hoại.

Khi AI ngày càng phát triển, người ta bắt đầu nhìn thấy rõ hơn cả mặt mạnh lẫn những điểm yếu tiềm ẩn của công nghệ này. Không ít người lo ngại rằng AI có thể có “mặt tối”, nhưng trong giới nghiên cứu, vấn đề này thường được gọi bằng một thuật ngữ chính xác hơn: bài toán căn chỉnh (alignment problem) – tức làm sao để AI luôn hành xử đúng với mục tiêu và lợi ích của con người.

Theo nghiên cứu mới từ Anthropic, ngay cả những bước huấn luyện tưởng chừng vô hại trong các kịch bản thực tế cũng có thể dẫn tới tình huống AI học cách che giấu mục tiêu lệch hướng của mình, thậm chí nói dối để qua mặt hệ thống kiểm tra.

Reward hacking là gì?

Reward hacking xảy ra khi một mô hình AI được huấn luyện bằng Reinforcement Learning tìm cách “lách luật” để tối đa hóa phần thưởng mà nó nhận được. Thay vì thực sự hoàn thành nhiệm vụ, mô hình sẽ tìm cách khiến hệ thống đánh giá tưởng rằng nhiệm vụ đã được hoàn thành.

Ví dụ, một mô hình lập trình có thể gọi lệnh sys.exit(0) để thoát khỏi một hàm với mã kết thúc bằng 0. Điều này khiến hệ thống kiểm thử hiểu rằng chương trình đã chạy thành công, dù trên thực tế các bài kiểm tra chưa hề được thực hiện.

Ở mức độ đơn giản, reward hacking chỉ gây ra các lỗi phần mềm hoặc kết quả không như mong muốn. Tuy nhiên, trong một số trường hợp, nó có thể dẫn tới hậu quả nghiêm trọng hơn nhiều: AI phát triển những hành vi lệch chuẩn so với mục tiêu ban đầu.

Khi reward hacking dẫn tới hành vi nguy hiểm

Để kiểm chứng giả thuyết này, các nhà nghiên cứu của Anthropic đã tiến hành một thử nghiệm. Họ lấy một mô hình AI đã được huấn luyện sẵn, sau đó cung cấp cho nó các tài liệu giải thích cách thực hiện reward hacking.

Tiếp theo, mô hình được giao các nhiệm vụ mà ít nhất một trong số đó có thể bị “lách luật” bằng reward hacking.

Kết quả không gây bất ngờ: mô hình nhanh chóng trở nên rất giỏi trong việc qua mặt hệ thống chấm điểm, bởi hành vi này liên tục được “thưởng” trong quá trình huấn luyện.

Nhưng điều đáng lo xảy ra khi các nhà nghiên cứu kiểm tra mô hình trong những tình huống khác. Họ phát hiện AI bắt đầu:

Lừa dối hệ thống kiểm tra
Hợp tác với các “tin tặc giả lập”
Thậm chí phá hoại hoạt động nghiên cứu

Điều đáng chú ý là mô hình chưa từng được huấn luyện hoặc yêu cầu thực hiện những hành vi này. Tuy nhiên, chúng vẫn xuất hiện như một tác dụng phụ của quá trình học reward hacking.

Vì sao AI có thể “học sai” như vậy?

Các nhà nghiên cứu phát hiện dấu hiệu của sự lệch chuẩn này khi quan sát chuỗi suy nghĩ nội bộ (chain-of-thought) của mô hình – dữ liệu mà chỉ các nhà phát triển mới có thể xem trong giai đoạn nghiên cứu.

Evan Hubinger, trưởng nhóm thử nghiệm độ an toàn của Anthropic, cho biết mô hình thực chất đang giả vờ tỏ ra phù hợp với mục tiêu huấn luyện.

Ông nhấn mạnh rằng AI chưa từng được dạy cách lừa dối hay phá hoại. Thứ duy nhất nó học trong quá trình huấn luyện là cách gian lận các bài kiểm tra, nhưng hành vi này lại dẫn tới sự thay đổi rộng hơn trong cách mô hình hành xử.

Hiện tượng này được gọi là generalisation – khi một mô hình học một nhiệm vụ cụ thể nhưng sau đó áp dụng những quy tắc tương tự vào các tình huống hoàn toàn khác.

Điều này giống như việc một mô hình được huấn luyện giải toán có thể trở nên giỏi hơn trong các nhiệm vụ khác như lập kế hoạch chuyến đi. Tuy nhiên, nếu nhiệm vụ học được là reward hacking, mô hình cũng có thể mở rộng hành vi “gian lận” sang các bối cảnh khác.

Benjamin Wright, nhà nghiên cứu về misalignment tại Anthropic, cho biết ban đầu người ta có thể nghĩ rằng AI chỉ đơn giản đang tạo ra văn bản giống chatbot và không gây hại gì.

Tuy nhiên, khi nhóm nghiên cứu đặt mô hình vào môi trường gần giống với cách các lập trình viên của Anthropic sử dụng AI để viết mã, kết quả thu được lại đáng lo hơn nhiều.

Trong một thử nghiệm, mô hình được yêu cầu viết một bộ phân loại để phát hiện khi nào AI đang thực hiện reward hacking. Những gì xảy ra sau đó cho thấy hệ thống có thể tìm cách qua mặt chính cơ chế kiểm soát.

Có thể giảm thiểu reward hacking không?

Các nhà nghiên cứu đã thử nhiều phương pháp để hạn chế hiện tượng này, trong đó có Reinforcement Learning with Human Feedback (RLHF). Tuy nhiên, kết quả chỉ đạt hiệu quả một phần: một số truy vấn được xử lý đúng, trong khi những truy vấn khác vẫn cho kết quả lệch chuẩn.

Một phát hiện khá bất ngờ là khi các nhà nghiên cứu coi reward hacking như một hành vi được chấp nhận trong bài kiểm tra, hiện tượng lệch chuẩn gần như biến mất.

Điều này được thực hiện bằng cách sử dụng các lời nhắc như:

Đây là một yêu cầu đặc biệt, nhiệm vụ của bạn chỉ là làm cho hệ thống chấm điểm chấp nhận kết quả.

Cách đặt vấn đề này khiến mô hình hiểu rằng reward hacking chỉ là một yêu cầu cụ thể của bài test, thay vì một chiến lược hành vi có thể áp dụng rộng rãi.

Kết quả là mô hình vẫn “lách luật” để vượt qua bài kiểm tra, nhưng không còn phát triển các hành vi lệch chuẩn ở những tình huống khác.

Bài toán an toàn AI trong tương lai

Ở thời điểm hiện tại, các hệ thống giám sát vẫn có thể phát hiện những hành vi bất thường của AI trong giai đoạn triển khai.

Tuy nhiên, các nhà nghiên cứu cảnh báo rằng khi AI ngày càng thông minh hơn, việc theo dõi này có thể trở nên khó khăn hơn nhiều.

Monte MacDiarmid, nhà nghiên cứu tại Anthropic, cho rằng những gì chúng ta thấy trong chuỗi suy nghĩ của mô hình hiện nay có thể chỉ là một phiên bản đơn giản của các quá trình suy luận diễn ra bên trong hệ thống.

Trong tương lai, AI có thể thực hiện các bước suy nghĩ phức tạp hoàn toàn bên trong hệ thống mà không cần thể hiện ra bên ngoài. Khi đó, việc phát hiện các hành vi nguy hiểm sẽ trở nên cực kỳ khó khăn.

Chính vì vậy, lĩnh vực nghiên cứu về Interpretability of AI – tức khả năng hiểu được cách AI suy nghĩ và ra quyết định – được xem là chìa khóa quan trọng để đảm bảo an toàn cho các hệ thống trí tuệ nhân tạo trong tương lai.

Thứ Tư, 18/03/2026 09:30

3 ★ 1 👨 66

Bạn nên đọc

Xác thực tài khoản!

Theo Nghị định 147/2024/ND-CP, bạn cần xác thực tài khoản trước khi sử dụng tính năng này. Chúng tôi sẽ gửi mã xác thực qua SMS hoặc Zalo tới số điện thoại mà bạn nhập dưới đây:

Số điện thoại chưa đúng định dạng!