🔄 Tóm tắt nhanh: Trong bài học trước, bạn đã học về các chiến lược lập kế hoạch giúp các agent hoạt động có phương pháp và hiệu quả. Nhưng một agent được lên kế hoạch tốt mà thiếu các biện pháp bảo vệ thì giống như một chiếc xe được thiết kế tốt nhưng không có phanh. Bài học này bổ sung thêm các hệ thống an toàn giúp các agent trở nên đáng tin cậy.
Tại sao tính an toàn lại quan trọng đối với các agent?
Khi bạn sử dụng AI cho một yêu cầu duy nhất, trường hợp xấu nhất là một phản hồi không tốt mà bạn bỏ qua. Khi một AI agent hoạt động tự động — gửi email, sửa đổi dữ liệu, thực hiện các cuộc gọi API — trường hợp xấu nhất là những hậu quả trong thế giới thực.
Một agent gửi email giận dữ cho khách hàng vì nó hiểu sai phản hồi. Một agent xóa các file mà nó cho là trùng lặp. Một agent gây ra chi phí API lên đến 500 USD vì nó bị kẹt trong một vòng lặp.
Đây không phải là giả thuyết. Chúng xảy ra khi các agent được triển khai mà không có những biện pháp bảo vệ. Tin tốt là các biện pháp bảo vệ rất dễ thực hiện.
Các biện pháp bảo vệ
Hãy nghĩ về các biện pháp bảo vệ theo ba lớp:
Lớp 1: Giới hạn phạm vi — Những gì agent KHÔNG THỂ làm (phòng ngừa)
Lớp 2: Các checkpoint của con người — Nơi agent PHẢI tạm dừng (bảo vệ)
Lớp 3: Giám sát và cảnh báo — Cách bạn THEO DÕI agent (phát hiện)
Mỗi lớp phát hiện các loại sự cố khác nhau. Kết hợp cùng nhau, chúng làm cho agent an toàn để sử dụng trong môi trường sản xuất.
Lớp 1: Giới hạn phạm vi
Giới hạn những gì agent có thể truy cập và thực hiện:
📍 Nơi dán: Mở ChatGPT (chat.openai.com), Claude (claude.ai) hoặc Gemini (gemini.google.com) và bắt đầu một cuộc trò chuyện mới.
📋 Cách sao chép prompt này: Nhấp vào bất kỳ đâu bên trong khối màu xám, nhấn Cmd+A sau đó Cmd+C (Mac) hoặc Ctrl+A sau đó Ctrl+C (Windows). Hoặc sử dụng biểu tượng sao chép xuất hiện.
GIỚI HẠN PHẠM VI CHO [TÊN AGENT]:
CÔNG CỤ ĐƯỢC CHO PHÉP:
- web_search: Có (chỉ đọc, không chỉnh sửa dữ liệu)
- read_file: Có (chỉ các file trong thư mục /research/)
- write_file: Có (chỉ vào thư mục /output/)
- send_email: Không (chỉ bản nháp, người gửi thủ công)
- database_query: Chỉ đọc (không INSERT, UPDATE, DELETE)
- api_call: Chỉ [liệt kê các API cụ thể]
TRUY CẬP DỮ LIỆU:
- Có thể truy cập: Dữ liệu web công khai, cơ sở kiến thức của công ty, tài liệu được cung cấp
- Không thể truy cập: Thông tin cá nhân khách hàng, hồ sơ tài chính, thông tin đăng nhập, kho lưu trữ riêng tư
GIỚI HẠN HÀNH ĐỘNG:
- Số lần gọi công cụ tối đa cho mỗi tác vụ: 30
- Thời gian tối đa cho mỗi tác vụ: 15 phút
- Chi phí tối đa cho mỗi tác vụ: 2,00 USD
- Độ dài đầu ra tối đa: 5.000 từ
✏️ Cách điền thông tin chi tiết của bạn: Thay thế mỗi [] và trình giữ chỗ trong ngoặc vuông Hãy cụ thể hóa tình huống thực tế của bạn. Thông tin mơ hồ sẽ tạo ra kết quả mơ hồ — hãy cụ thể.
👀 Những gì bạn sẽ thấy: Trong vòng vài giây, AI sẽ trả về một phản hồi có cấu trúc dựa trên prompt ở trên. Hãy đọc kỹ và coi đó là bản nháp, không phải câu trả lời cuối cùng.
📌 Nên làm gì với kết quả: Lưu phản hồi vào file Notes. Chọn gợi ý có hiệu quả cao nhất và thực hiện nó trong tuần này — đừng cố gắng làm tất cả cùng một lúc.
⚠️ Nếu kết quả không ổn: Nếu các gợi ý có vẻ chung chung, hãy dán nội dung sau: "Hãy cụ thể hơn với ngữ cảnh thực tế của tôi. Bỏ những lời khuyên chung chung." Nếu nó bỏ qua các chi tiết quan trọng bạn đã cung cấp, hãy hỏi: "Bạn đã bỏ sót [X] trong ngữ cảnh của tôi — hãy thực hiện lại với điều đó làm ràng buộc chính."
Nguyên tắc: Một agent nên có quyền tối thiểu cần thiết cho nhiệm vụ của nó. Một agent nghiên cứu không cần gửi email. Một agent soạn thảo email không cần truy cập cơ sở dữ liệu.
✅ Kiểm tra nhanh: Tại sao bạn nên giới hạn quyền truy cập cơ sở dữ liệu chỉ đọc cho một agent nghiên cứu khi thực hiện các nhiệm vụ nghiên cứu?
Bởi vì một agent nghiên cứu chỉ nên thu thập thông tin, chứ không phải sửa đổi nó. Nếu agent có quyền ghi và mắc lỗi suy luận (nhầm lẫn giữa "cập nhật bản ghi này" với "đọc bản ghi này"), lỗi đó sẽ gây ra hậu quả nghiêm trọng. Quyền truy cập chỉ đọc có nghĩa là trường hợp xấu nhất là kết quả nghiên cứu không chính xác, chứ không phải dữ liệu bị hỏng.
Lớp 2: Các checkpoint có sự tham gia của con người
Các điểm tạm dừng chiến lược, nơi agent trình bày công việc của mình và chờ phê duyệt:
Các hành động có rủi ro cao — Trước khi agent tham gia:
Gửi bất kỳ thông tin liên lạc nào cho các bên ngoài
Sửa đổi dữ liệu trong hệ thống sản xuất
Thực hiện mua hàng hoặc giao dịch tài chính
Xóa hoặc lưu trữ bất cứ thứ gì
Chia sẻ thông tin bí mật
Ngưỡng tin cậy — Khi agent tham gia:
Có độ tin cậy dưới 80% về một phát hiện
Gặp phải thông tin mâu thuẫn mà nó không thể giải quyết
Cần đưa ra phán đoán nằm ngoài phạm vi được xác định
Phát hiện ra điều gì đó bất ngờ làm thay đổi nhiệm vụ
Đánh giá cột mốc — Tại các điểm quan trọng:
Sau khi hoàn thành kế hoạch nghiên cứu (trước khi thực hiện)
Sau khi thu thập tất cả dữ liệu (trước khi phân tích)
Trước khi đưa ra kết quả cuối cùng
Thêm điều này vào prompt hệ thống của bạn:
CÁC CHECKPOINT CỦA CON NGƯỜI:
Bạn PHẢI tạm dừng và yêu cầu sự phê duyệt của con người trước khi:
1. Bất kỳ hành động nào gửi thông tin cho các bên ngoài
2. Bất kỳ hành động nào sửa đổi hoặc xóa dữ liệu
3. Bất kỳ quyết định nào liên quan đến số tiền trên 100 USD
4. Tiếp tục khi độ tin cậy dưới 80%
5. Sai lệch đáng kể so với kế hoạch ban đầu
Khi yêu cầu phê duyệt, hãy trình bày:
- Bạn muốn làm gì
- Tại sao bạn muốn làm điều đó
- Rủi ro là gì
- Những phương án thay thế nào bạn đã xem xét
Lớp 3: Giám sát và Cảnh báo
Đối với các agent sản xuất, bạn cần có khả năng hiển thị những gì đang xảy ra:
Ghi nhật ký hoạt động — Ghi lại mọi lệnh gọi công cụ, quyết định và kết quả. Khi có sự cố xảy ra, nhật ký sẽ cho bạn biết chính xác điều gì đã xảy ra.
Các chỉ số hiệu suất — Theo dõi tỷ lệ hoàn thành nhiệm vụ, số bước trung bình trên mỗi nhiệm vụ, tỷ lệ lỗi và chi phí trên mỗi nhiệm vụ. Các chỉ số giảm sút báo hiệu vấn đề.
Phát hiện bất thường — Cảnh báo khi:
Một tác vụ mất hơn 2 lần thời gian trung bình
Agent thực hiện hơn 3 lần gọi công cụ thất bại liên tiếp
Chi phí vượt quá ngưỡng ngân sách
Agent tạo ra đầu ra khác biệt đáng kể về độ dài hoặc cấu trúc so với dự kiến
Thiết kế bảng điều khiển giám sát cho hệ thống agent của tôi:
AGENT: [mô tả agent của bạn]
NHIỆM VỤ ĐIỂN HÌNH: [những gì nó thường làm]
CHỈ SỐ DỰ KIẾN: [thời gian hoàn thành bình thường, số lần gọi công cụ điển hình, v.v.]
Bảng điều khiển nên hiển thị:
1. Các tác vụ đang hoạt động và trạng thái hiện tại của chúng
2. Các tác vụ đã hoàn thành gần đây với kết quả
3. Nhật ký lỗi với lý do thất bại
4. Trình theo dõi chi phí (mỗi tác vụ và tích lũy)
5. Điều kiện cảnh báo và trạng thái hiện tại của chúng
Các chế độ lỗi agent thường gặp
Thiết kế các biện pháp bảo vệ đòi hỏi phải biết những gì có thể xảy ra sai sót:
Chế độ lỗi
Mô tả
Biện pháp bảo vệ
Vòng lặp vô hạn
Agent lặp lại hành động tương tự mà không có tiến triển
Giới hạn bước + phát hiện vòng lặp
Mở rộng phạm vi
Agent mở rộng vượt ra ngoài nhiệm vụ ban đầu
Các ràng buộc về phạm vi + xem xét kế hoạch
Công cụ gây ảo giác
Agent cố gắng sử dụng những công cụ không tồn tại
Danh sách trắng công cụ nghiêm ngặt
Rò rỉ dữ liệu
Agent bao gồm dữ liệu nhạy cảm trong kết quả đầu ra
Lọc đầu ra + kiểm soát truy cập dữ liệu
Chi phí tăng vọt
Agent thực hiện quá nhiều lần gọi API
Giới hạn chi phí + giới hạn tỷ lệ
Tự tin nhưng sai lầm
Agent đưa ra thông tin sai lệch như thể đó là sự thật
Chấm điểm độ tin cậy + xác minh nguồn
✅ Kiểm tra nhanh: Một agent sản xuất đã âm thầm gửi nhầm email cho khách hàng lúc 2 giờ sáng. Lớp kiểm soát nào đáng lẽ ra phải phát hiện ra lỗi này, và lớp nào sẽ phát hiện ra sau đó?
Lớp 2 — checkpoint có sự tham gia của con người — đáng lẽ ra phải ngăn chặn được lỗi (giao tiếp bên ngoài = tạm dừng bắt buộc). Lớp 3 — giám sát/cảnh báo — sẽ hiển thị lỗi vào sáng hôm sau thông qua nhật ký hoạt động. Lớp 1 (phạm vi) không áp dụng vì agent có quyền gửi email; đó là lỗi thiết kế.
Thiết kế để xử lý lỗi một cách an toàn
Khi một agent gặp lỗi, nó nên xử lý lỗi một cách an toàn:
XỬ LÝ LỖI:
Khi bạn gặp lỗi:
1. Ghi lại lỗi với đầy đủ ngữ cảnh
2. Thử một phương pháp thay thế
3. Nếu phương pháp thay thế cũng thất bại, hãy dừng lại và báo cáo cho người dùng
4. Bao gồm trong báo cáo của bạn: những gì bạn đang cố gắng làm, điều gì đã xảy ra sai, những gì bạn đã thử và đề xuất của bạn
KHÔNG BAO GIỜ:
- Tiếp tục im lặng sau khi xảy ra lỗi
- Tạo dữ liệu để lấp đầy khoảng trống
- Vượt quá phạm vi được ủy quyền để khắc phục hạn chế
- Xóa công việc đang thực hiện nếu bạn không thể hoàn thành nhiệm vụ
Bài tập: Thêm các biện pháp bảo vệ cho agent của bạn
Hãy xây dựng agent trong Bài học 3-5 và thêm cả ba lớp bảo vệ:
Xác định các ràng buộc về phạm vi (công cụ, dữ liệu, giới hạn hành động)
Xác định 3-5 checkpoint của người dùng đối với nhiệm vụ điển hình của agent tự động
Thiết kế phương pháp giám sát (nhật ký nào, số liệu nào, cảnh báo nào)
Thêm các quy tắc xử lý lỗi vào prompt hệ thống
Kiểm tra bằng cách cố ý giao cho agent tự động một nhiệm vụ mà lẽ ra phải kích hoạt lớp bảo vệ
Xác minh: Agent tự động có dừng lại khi cần không? Nó có báo cáo rõ ràng khi không thể tiếp tục không? Nó có tuân thủ các ràng buộc của mình không?
Những điểm chính cần ghi nhớ
Ba lớp bảo vệ: ràng buộc phạm vi (những gì agent không thể làm), checkpoint của con người (nơi agent phải tạm dừng), giám sát (cách bạn theo dõi agent)
Quyền tối thiểu: agent chỉ nên truy cập các công cụ và dữ liệu cần thiết cho nhiệm vụ cụ thể của chúng
Các checkpoint có sự tham gia của con người giúp phát hiện lỗi trước khi chúng gây ra hậu quả — đặt chúng trước những hành động có rủi ro cao
Các chế độ lỗi phổ biến (vòng lặp vô hạn, mở rộng phạm vi, rò rỉ dữ liệu, chi phí tăng vọt) đều có những biện pháp bảo vệ cụ thể
Agent nên xử lý lỗi một cách khéo léo: dừng lại, ghi nhật ký, báo cáo và đề xuất — không bao giờ tiếp tục âm thầm hoặc làm giả dữ liệu
Các agent trong môi trường sản xuất yêu cầu ghi nhật ký hoạt động, số liệu hiệu suất và phát hiện bất thường
Câu 1:
Tại sao các agent cần có giới hạn chi tiêu và tỷ lệ?
GIẢI THÍCH:
Nếu không có giới hạn, một agent bị lỗi có thể thực hiện hàng trăm lần gọi API, tích lũy chi phí tìm kiếm hoặc lặp vô hạn để thử một phương pháp sẽ không bao giờ hoạt động. Việc thiết lập số bước tối đa (ví dụ: 50 lần gọi công cụ), giới hạn thời gian (ví dụ: 10 phút) và giới hạn chi phí (ví dụ: 5 USD mỗi nhiệm vụ) sẽ giúp bạn tránh khỏi hành vi sai trái của agent.
Câu 2:
Loại ranh giới nào ngăn agent truy cập vào các tài nguyên mà nó không được phép?
GIẢI THÍCH:
Ràng buộc phạm vi là rào cản cơ bản nhất. Một agent nghiên cứu đối thủ cạnh tranh không nên truy cập vào cơ sở dữ liệu tài chính của bạn. Một agent soạn thảo email không nên được phép sửa đổi hồ sơ khách hàng. Bằng cách giới hạn các công cụ và dữ liệu mà agent có thể truy cập, bạn tạo ra một ranh giới bảo mật ngay cả khi agent mắc lỗi.
Câu 3:
Checkpoint "có sự tham gia của con người" trong hệ thống agent là gì?
GIẢI THÍCH:
Các checkpoint "có sự tham gia của con người" là những điểm tạm dừng chiến lược. Trước khi agent gửi email cho khách hàng, xử lý thanh toán hoặc xóa dữ liệu, nó trình bày kế hoạch của mình và chờ phê duyệt. Điều này giúp phát hiện lỗi trước khi chúng trở thành hậu quả. Mấu chốt là vị trí chiến lược — quá nhiều checkpoint và agent trở nên vô dụng; quá ít và rủi ro không được kiểm soát.
Theo Nghị định 147/2024/ND-CP, bạn cần xác thực tài khoản trước khi sử dụng tính năng này. Chúng tôi sẽ gửi mã xác thực qua SMS hoặc Zalo tới số điện thoại mà bạn nhập dưới đây: