Hàng rào bảo vệ, tính an toàn và sự tham gia của con người trong quá trình vận hành AI Agent

Trần Mến

Bài trước

Bài sau

🔄 Tóm tắt nhanh: Trong bài học trước, bạn đã học về các chiến lược lập kế hoạch giúp các agent hoạt động có phương pháp và hiệu quả. Nhưng một agent được lên kế hoạch tốt mà thiếu các biện pháp bảo vệ thì giống như một chiếc xe được thiết kế tốt nhưng không có phanh. Bài học này bổ sung thêm các hệ thống an toàn giúp các agent trở nên đáng tin cậy.

Tại sao tính an toàn lại quan trọng đối với các agent?

Khi bạn sử dụng AI cho một yêu cầu duy nhất, trường hợp xấu nhất là một phản hồi không tốt mà bạn bỏ qua. Khi một AI agent hoạt động tự động — gửi email, sửa đổi dữ liệu, thực hiện các cuộc gọi API — trường hợp xấu nhất là những hậu quả trong thế giới thực.

Một agent gửi email giận dữ cho khách hàng vì nó hiểu sai phản hồi. Một agent xóa các file mà nó cho là trùng lặp. Một agent gây ra chi phí API lên đến 500 USD vì nó bị kẹt trong một vòng lặp.

Đây không phải là giả thuyết. Chúng xảy ra khi các agent được triển khai mà không có những biện pháp bảo vệ. Tin tốt là các biện pháp bảo vệ rất dễ thực hiện.

Các biện pháp bảo vệ

Hãy nghĩ về các biện pháp bảo vệ theo ba lớp:

Lớp 1: Giới hạn phạm vi — Những gì agent KHÔNG THỂ làm (phòng ngừa)
Lớp 2: Các checkpoint của con người — Nơi agent PHẢI tạm dừng (bảo vệ)
Lớp 3: Giám sát và cảnh báo — Cách bạn THEO DÕI agent (phát hiện)

Mỗi lớp phát hiện các loại sự cố khác nhau. Kết hợp cùng nhau, chúng làm cho agent an toàn để sử dụng trong môi trường sản xuất.

Lớp 1: Giới hạn phạm vi

Giới hạn những gì agent có thể truy cập và thực hiện:

📍 Nơi dán: Mở ChatGPT (chat.openai.com), Claude (claude.ai) hoặc Gemini (gemini.google.com) và bắt đầu một cuộc trò chuyện mới.

📋 Cách sao chép prompt này: Nhấp vào bất kỳ đâu bên trong khối màu xám, nhấn Cmd+A sau đó Cmd+C (Mac) hoặc Ctrl+A sau đó Ctrl+C (Windows). Hoặc sử dụng biểu tượng sao chép xuất hiện.

GIỚI HẠN PHẠM VI CHO [TÊN AGENT]:

CÔNG CỤ ĐƯỢC CHO PHÉP:
- web_search: Có (chỉ đọc, không chỉnh sửa dữ liệu)
- read_file: Có (chỉ các file trong thư mục /research/)
- write_file: Có (chỉ vào thư mục /output/)
- send_email: Không (chỉ bản nháp, người gửi thủ công)
- database_query: Chỉ đọc (không INSERT, UPDATE, DELETE)
- api_call: Chỉ [liệt kê các API cụ thể]

TRUY CẬP DỮ LIỆU:
- Có thể truy cập: Dữ liệu web công khai, cơ sở kiến thức của công ty, tài liệu được cung cấp
- Không thể truy cập: Thông tin cá nhân khách hàng, hồ sơ tài chính, thông tin đăng nhập, kho lưu trữ riêng tư

GIỚI HẠN HÀNH ĐỘNG:
- Số lần gọi công cụ tối đa cho mỗi tác vụ: 30
- Thời gian tối đa cho mỗi tác vụ: 15 phút
- Chi phí tối đa cho mỗi tác vụ: 2,00 USD
- Độ dài đầu ra tối đa: 5.000 từ

✏️ Cách điền thông tin chi tiết của bạn: Thay thế mỗi [] và trình giữ chỗ trong ngoặc vuông Hãy cụ thể hóa tình huống thực tế của bạn. Thông tin mơ hồ sẽ tạo ra kết quả mơ hồ — hãy cụ thể.

👀 Những gì bạn sẽ thấy: Trong vòng vài giây, AI sẽ trả về một phản hồi có cấu trúc dựa trên prompt ở trên. Hãy đọc kỹ và coi đó là bản nháp, không phải câu trả lời cuối cùng.

📌 Nên làm gì với kết quả: Lưu phản hồi vào file Notes. Chọn gợi ý có hiệu quả cao nhất và thực hiện nó trong tuần này — đừng cố gắng làm tất cả cùng một lúc.

⚠️ Nếu kết quả không ổn: Nếu các gợi ý có vẻ chung chung, hãy dán nội dung sau: "Hãy cụ thể hơn với ngữ cảnh thực tế của tôi. Bỏ những lời khuyên chung chung." Nếu nó bỏ qua các chi tiết quan trọng bạn đã cung cấp, hãy hỏi: "Bạn đã bỏ sót [X] trong ngữ cảnh của tôi — hãy thực hiện lại với điều đó làm ràng buộc chính."

Nguyên tắc: Một agent nên có quyền tối thiểu cần thiết cho nhiệm vụ của nó. Một agent nghiên cứu không cần gửi email. Một agent soạn thảo email không cần truy cập cơ sở dữ liệu.

✅ Kiểm tra nhanh: Tại sao bạn nên giới hạn quyền truy cập cơ sở dữ liệu chỉ đọc cho một agent nghiên cứu khi thực hiện các nhiệm vụ nghiên cứu?

Bởi vì một agent nghiên cứu chỉ nên thu thập thông tin, chứ không phải sửa đổi nó. Nếu agent có quyền ghi và mắc lỗi suy luận (nhầm lẫn giữa "cập nhật bản ghi này" với "đọc bản ghi này"), lỗi đó sẽ gây ra hậu quả nghiêm trọng. Quyền truy cập chỉ đọc có nghĩa là trường hợp xấu nhất là kết quả nghiên cứu không chính xác, chứ không phải dữ liệu bị hỏng.

Lớp 2: Các checkpoint có sự tham gia của con người

Các điểm tạm dừng chiến lược, nơi agent trình bày công việc của mình và chờ phê duyệt:

Các hành động có rủi ro cao — Trước khi agent tham gia:

Gửi bất kỳ thông tin liên lạc nào cho các bên ngoài
Sửa đổi dữ liệu trong hệ thống sản xuất
Thực hiện mua hàng hoặc giao dịch tài chính
Xóa hoặc lưu trữ bất cứ thứ gì
Chia sẻ thông tin bí mật

Ngưỡng tin cậy — Khi agent tham gia:

Có độ tin cậy dưới 80% về một phát hiện
Gặp phải thông tin mâu thuẫn mà nó không thể giải quyết
Cần đưa ra phán đoán nằm ngoài phạm vi được xác định
Phát hiện ra điều gì đó bất ngờ làm thay đổi nhiệm vụ

Đánh giá cột mốc — Tại các điểm quan trọng:

Sau khi hoàn thành kế hoạch nghiên cứu (trước khi thực hiện)
Sau khi thu thập tất cả dữ liệu (trước khi phân tích)
Trước khi đưa ra kết quả cuối cùng

Thêm điều này vào prompt hệ thống của bạn:

CÁC CHECKPOINT CỦA CON NGƯỜI:
Bạn PHẢI tạm dừng và yêu cầu sự phê duyệt của con người trước khi:
1. Bất kỳ hành động nào gửi thông tin cho các bên ngoài
2. Bất kỳ hành động nào sửa đổi hoặc xóa dữ liệu
3. Bất kỳ quyết định nào liên quan đến số tiền trên 100 USD
4. Tiếp tục khi độ tin cậy dưới 80%
5. Sai lệch đáng kể so với kế hoạch ban đầu

Khi yêu cầu phê duyệt, hãy trình bày:
- Bạn muốn làm gì
- Tại sao bạn muốn làm điều đó
- Rủi ro là gì
- Những phương án thay thế nào bạn đã xem xét

Lớp 3: Giám sát và Cảnh báo

Đối với các agent sản xuất, bạn cần có khả năng hiển thị những gì đang xảy ra:

Ghi nhật ký hoạt động — Ghi lại mọi lệnh gọi công cụ, quyết định và kết quả. Khi có sự cố xảy ra, nhật ký sẽ cho bạn biết chính xác điều gì đã xảy ra.

Các chỉ số hiệu suất — Theo dõi tỷ lệ hoàn thành nhiệm vụ, số bước trung bình trên mỗi nhiệm vụ, tỷ lệ lỗi và chi phí trên mỗi nhiệm vụ. Các chỉ số giảm sút báo hiệu vấn đề.

Phát hiện bất thường — Cảnh báo khi:

Một tác vụ mất hơn 2 lần thời gian trung bình
Agent thực hiện hơn 3 lần gọi công cụ thất bại liên tiếp
Chi phí vượt quá ngưỡng ngân sách
Agent tạo ra đầu ra khác biệt đáng kể về độ dài hoặc cấu trúc so với dự kiến

Thiết kế bảng điều khiển giám sát cho hệ thống agent của tôi:

AGENT: [mô tả agent của bạn]
NHIỆM VỤ ĐIỂN HÌNH: [những gì nó thường làm]
CHỈ SỐ DỰ KIẾN: [thời gian hoàn thành bình thường, số lần gọi công cụ điển hình, v.v.]

Bảng điều khiển nên hiển thị:
1. Các tác vụ đang hoạt động và trạng thái hiện tại của chúng
2. Các tác vụ đã hoàn thành gần đây với kết quả
3. Nhật ký lỗi với lý do thất bại
4. Trình theo dõi chi phí (mỗi tác vụ và tích lũy)
5. Điều kiện cảnh báo và trạng thái hiện tại của chúng

Các chế độ lỗi agent thường gặp

Thiết kế các biện pháp bảo vệ đòi hỏi phải biết những gì có thể xảy ra sai sót:

Chế độ lỗi	Mô tả	Biện pháp bảo vệ
Vòng lặp vô hạn	Agent lặp lại hành động tương tự mà không có tiến triển	Giới hạn bước + phát hiện vòng lặp
Mở rộng phạm vi	Agent mở rộng vượt ra ngoài nhiệm vụ ban đầu	Các ràng buộc về phạm vi + xem xét kế hoạch
Công cụ gây ảo giác	Agent cố gắng sử dụng những công cụ không tồn tại	Danh sách trắng công cụ nghiêm ngặt
Rò rỉ dữ liệu	Agent bao gồm dữ liệu nhạy cảm trong kết quả đầu ra	Lọc đầu ra + kiểm soát truy cập dữ liệu
Chi phí tăng vọt	Agent thực hiện quá nhiều lần gọi API	Giới hạn chi phí + giới hạn tỷ lệ
Tự tin nhưng sai lầm	Agent đưa ra thông tin sai lệch như thể đó là sự thật	Chấm điểm độ tin cậy + xác minh nguồn

✅ Kiểm tra nhanh: Một agent sản xuất đã âm thầm gửi nhầm email cho khách hàng lúc 2 giờ sáng. Lớp kiểm soát nào đáng lẽ ra phải phát hiện ra lỗi này, và lớp nào sẽ phát hiện ra sau đó?

Lớp 2 — checkpoint có sự tham gia của con người — đáng lẽ ra phải ngăn chặn được lỗi (giao tiếp bên ngoài = tạm dừng bắt buộc). Lớp 3 — giám sát/cảnh báo — sẽ hiển thị lỗi vào sáng hôm sau thông qua nhật ký hoạt động. Lớp 1 (phạm vi) không áp dụng vì agent có quyền gửi email; đó là lỗi thiết kế.

Thiết kế để xử lý lỗi một cách an toàn

Khi một agent gặp lỗi, nó nên xử lý lỗi một cách an toàn:

XỬ LÝ LỖI:
Khi bạn gặp lỗi:
1. Ghi lại lỗi với đầy đủ ngữ cảnh
2. Thử một phương pháp thay thế
3. Nếu phương pháp thay thế cũng thất bại, hãy dừng lại và báo cáo cho người dùng
4. Bao gồm trong báo cáo của bạn: những gì bạn đang cố gắng làm, điều gì đã xảy ra sai, những gì bạn đã thử và đề xuất của bạn

KHÔNG BAO GIỜ:
- Tiếp tục im lặng sau khi xảy ra lỗi
- Tạo dữ liệu để lấp đầy khoảng trống
- Vượt quá phạm vi được ủy quyền để khắc phục hạn chế
- Xóa công việc đang thực hiện nếu bạn không thể hoàn thành nhiệm vụ

Bài tập: Thêm các biện pháp bảo vệ cho agent của bạn

Hãy xây dựng agent trong Bài học 3-5 và thêm cả ba lớp bảo vệ:

Xác định các ràng buộc về phạm vi (công cụ, dữ liệu, giới hạn hành động)
Xác định 3-5 checkpoint của người dùng đối với nhiệm vụ điển hình của agent tự động
Thiết kế phương pháp giám sát (nhật ký nào, số liệu nào, cảnh báo nào)
Thêm các quy tắc xử lý lỗi vào prompt hệ thống
Kiểm tra bằng cách cố ý giao cho agent tự động một nhiệm vụ mà lẽ ra phải kích hoạt lớp bảo vệ

Xác minh: Agent tự động có dừng lại khi cần không? Nó có báo cáo rõ ràng khi không thể tiếp tục không? Nó có tuân thủ các ràng buộc của mình không?

Những điểm chính cần ghi nhớ

Ba lớp bảo vệ: ràng buộc phạm vi (những gì agent không thể làm), checkpoint của con người (nơi agent phải tạm dừng), giám sát (cách bạn theo dõi agent)
Quyền tối thiểu: agent chỉ nên truy cập các công cụ và dữ liệu cần thiết cho nhiệm vụ cụ thể của chúng
Các checkpoint có sự tham gia của con người giúp phát hiện lỗi trước khi chúng gây ra hậu quả — đặt chúng trước những hành động có rủi ro cao
Các chế độ lỗi phổ biến (vòng lặp vô hạn, mở rộng phạm vi, rò rỉ dữ liệu, chi phí tăng vọt) đều có những biện pháp bảo vệ cụ thể
Agent nên xử lý lỗi một cách khéo léo: dừng lại, ghi nhật ký, báo cáo và đề xuất — không bao giờ tiếp tục âm thầm hoặc làm giả dữ liệu
Các agent trong môi trường sản xuất yêu cầu ghi nhật ký hoạt động, số liệu hiệu suất và phát hiện bất thường

Thứ Ba, 26/05/2026 16:55

5 ★ 1 👨 27

Bạn nên đọc

Xác thực tài khoản!

Theo Nghị định 147/2024/ND-CP, bạn cần xác thực tài khoản trước khi sử dụng tính năng này. Chúng tôi sẽ gửi mã xác thực qua SMS hoặc Zalo tới số điện thoại mà bạn nhập dưới đây:

Số điện thoại chưa đúng định dạng!

0 Bình luận

Sắp xếp theo

Xóa Đăng nhập để Gửi

AI Agents

Giấy phép số 362/GP-BTTTT. Bộ Thông tin và Truyền thông cấp ngày 30/06/2016. Cơ quan chủ quản: CÔNG TY CỔ PHẦN MẠNG TRỰC TUYẾN META. Địa chỉ: 56 Duy Tân, Phường Cầu Giấy, Hà Nội. Điện thoại: 024 2242 6188. Email: info@meta.vn. Chịu trách nhiệm nội dung: Lê Ngọc Lam.

Hàng rào bảo vệ, tính an toàn và sự tham gia của con người trong quá trình vận hành AI Agent

Tại sao tính an toàn lại quan trọng đối với các agent?

Các biện pháp bảo vệ

Lớp 1: Giới hạn phạm vi

Lớp 2: Các checkpoint có sự tham gia của con người

Lớp 3: Giám sát và Cảnh báo

Các chế độ lỗi agent thường gặp

Thiết kế để xử lý lỗi một cách an toàn

Bài tập: Thêm các biện pháp bảo vệ cho agent của bạn

Những điểm chính cần ghi nhớ

Kết quả luyện tập

Bạn nên đọc

Các giao thức và giao tiếp agent

Các chế độ lỗi và gỡ lỗi trong hệ thống AI multi-agent

Giới hạn an toàn, đánh giá và khả năng quan sát của AI agent

AI Agent là gì? Tại sao lại cần đến nó vào thời điểm này?

3 framework hàng đầu: CrewAI, LangGraph và AutoGen

Xây dựng agent đầu tiên của bạn

Xây dựng hệ thống Multi-agent của bạn

Xây dựng một màn hình hoàn chỉnh trong Figma với AI

Thiết kế hệ thống AI agent của bạn