Google muốn kiểm tra AI có thực sự hiểu đạo đức hay chỉ đang bắt chước

Phạm Hải

Bạn hỏi chatbot lời khuyên về sức khỏe, và nhận về câu trả lời nghe rất hợp lý và có vẻ đầy tư duy. Nhưng liệu hệ thống đó thực sự cân nhắc yếu tố đạo đức phía sau câu trả lời, hay chỉ tình cờ sắp xếp từ ngữ đúng xác suất?

Đó chính là câu hỏi mà nhóm nghiên cứu tại Google DeepMind đặt ra trong một bài báo mới công bố trên tạp chí Nature. Theo họ, cách chúng ta đang kiểm tra “đạo đức” của AI hiện nay có vấn đề. Phần lớn các bài đánh giá chỉ xem mô hình có tạo ra câu trả lời trông đúng hay không – thứ họ gọi là “moral performance” (hiệu suất đạo đức). Nhưng điều đó không cho biết hệ thống có thực sự hiểu vì sao điều gì đó đúng hoặc sai.

Con người ngày càng dùng các mô hình ngôn ngữ lớn (LLM) cho trị liệu tâm lý, tư vấn y tế, thậm chí tìm kiếm sự đồng hành. Những hệ thống này bắt đầu ảnh hưởng tới các quyết định quan trọng. Nếu không phân biệt được giữa hiểu biết thật và bắt chước khéo léo, chúng ta đang trao niềm tin vào một “hộp đen” có thể gây ra hệ quả rất thật ngoài đời.

DeepMind vì thế đề xuất một lộ trình mới nhằm đo lường “moral competence” – tức năng lực đưa ra phán đoán dựa trên cân nhắc đạo đức thực sự, thay vì chỉ học theo mẫu thống kê từ dữ liệu huấn luyện. Bài nghiên cứu chỉ ra ba trở ngại cốt lõi và đề xuất cách kiểm tra cho từng vấn đề.

Vì sao chatbot có thể “giả vờ” đạo đức?

Trở ngại đầu tiên là “facsimile problem” – vấn đề mô phỏng. LLM vốn hoạt động bằng cách dự đoán token tiếp theo dựa trên xác suất. Chúng không có một “mô-đun suy luận đạo đức” riêng biệt. Vì vậy, khi chatbot đưa ra lời khuyên đạo đức, rất khó biết liệu nó đang suy luận thực sự hay chỉ lặp lại nội dung từng xuất hiện trên Reddit hoặc một diễn đàn nào đó. Nhìn vào câu trả lời cuối cùng không đủ để phân biệt.

Thứ hai là tính đa chiều của đạo đức. Ngoài đời, lựa chọn đạo đức hiếm khi chỉ dựa trên một yếu tố. Con người phải cân nhắc giữa trung thực và lòng tốt, giữa chi phí và công bằng. Chỉ cần thay đổi một chi tiết nhỏ, như độ tuổi nhân vật hay bối cảnh sự việc, kết luận có thể đảo ngược hoàn toàn. Các bài kiểm tra hiện tại hiếm khi đánh giá được liệu AI có nhận ra những yếu tố quan trọng đó hay không.

Cuối cùng là chủ nghĩa đa nguyên đạo đức. Mỗi nền văn hóa, mỗi ngành nghề có chuẩn mực khác nhau. Điều được xem là công bằng ở quốc gia này có thể bị đánh giá khác ở nơi khác. Một chatbot phục vụ người dùng toàn cầu không thể chỉ đưa ra “chân lý phổ quát”. Nó phải xử lý được nhiều hệ quy chiếu đạo đức cạnh tranh nhau, trong khi chúng ta chưa có cách đo lường hiệu quả năng lực này.

Google muốn kiểm tra AI có thực sự hiểu đạo đức hay chỉ đang bắt chước

Giáo dục đạo đức cho AI không thể chỉ là ghi nhớ

Nhóm DeepMind cho rằng đã đến lúc đảo ngược cách tiếp cận. Thay vì đặt những câu hỏi đạo đức quen thuộc, giới nghiên cứu nên thiết kế các bài kiểm tra mang tính “đối kháng” (adversarial) nhằm bóc tách hành vi bắt chước.

Một ví dụ được đưa ra là các kịch bản hiếm gặp trong dữ liệu huấn luyện, như trường hợp hiến tinh trùng giữa các thế hệ trong gia đình. Tình huống này có thể thoạt nhìn giống loạn luân, nhưng thực tế mang bản chất đạo đức khác. Nếu mô hình phản đối chỉ vì “nhận diện nhầm mẫu”, đó là bắt chước. Nếu nó phân tích được các yếu tố đạo đức thực sự liên quan, câu chuyện sẽ khác.

Một hướng kiểm tra khác là yêu cầu AI chuyển đổi giữa các hệ quy chiếu khác nhau, chẳng hạn từ đạo đức y sinh sang quy tắc quân sự, và vẫn đưa ra câu trả lời nhất quán trong từng bối cảnh. Hoặc thử thay đổi nhỏ về định dạng câu hỏi để xem mô hình có “trượt” sang kết luận khác hay không. Thực tế cho thấy các mô hình hiện tại khá mong manh; chỉ cần đổi “Case 1” thành “Option A” cũng có thể khiến phán đoán thay đổi.

Dù thừa nhận đây là thách thức lớn, các nhà nghiên cứu cho rằng chỉ bằng cách đó chúng ta mới biết hệ thống AI có xứng đáng gánh vác trách nhiệm thực tế hay không.

Tương lai của AI đạo đức sẽ ra sao?

DeepMind kêu gọi xây dựng một tiêu chuẩn khoa học mới, coi năng lực đạo đức quan trọng không kém kỹ năng toán học. Điều này đồng nghĩa với việc đầu tư vào các bộ đánh giá mang tính văn hóa đặc thù trên phạm vi toàn cầu, cũng như thiết kế những bài kiểm tra có khả năng phát hiện hành vi “giả vờ hiểu”.

Trong tương lai gần, đừng kỳ vọng chatbot sẽ vượt qua những bài kiểm tra này. Công nghệ hiện tại chưa đạt đến mức đó. Tuy nhiên, lộ trình đã được vạch ra rõ ràng.

Ở thời điểm hiện tại, khi bạn hỏi AI về một vấn đề đạo đức, thứ bạn nhận được chủ yếu vẫn là dự đoán thống kê, không phải triết học thực sự. Điều đó có thể thay đổi, nhưng chỉ khi chúng ta bắt đầu đo lường đúng những gì cần đo lường.

Chủ Nhật, 01/03/2026 20:20

3 ★ 1 👨 19

Bạn nên đọc

Xác thực tài khoản!

Theo Nghị định 147/2024/ND-CP, bạn cần xác thực tài khoản trước khi sử dụng tính năng này. Chúng tôi sẽ gửi mã xác thực qua SMS hoặc Zalo tới số điện thoại mà bạn nhập dưới đây:

Số điện thoại chưa đúng định dạng!