Bạn đã học được các thành phần, mô hình, công cụ và thực tiễn của các AI agent. Giờ hãy thiết kế một hệ thống agent hoàn chỉnh từ đầu - áp dụng tất cả những gì đã học trong khóa học.
Thiết kế một hệ thống agent giúp người lao động tri thức nghiên cứu các chủ đề, tổng hợp những phát hiện và tạo ra báo cáo. Phân tích từng quyết định thiết kế bằng cách sử dụng các framework lý thuyết từ khóa học này.
Bước 1: Xác định mục đích của agent
Nhiệm vụ: Nghiên cứu một chủ đề, thu thập thông tin từ nhiều nguồn, tổng hợp các phát hiện và tạo ra một báo cáo có cấu trúc.
Người dùng: Các nhà phân tích, chuyên gia tư vấn, quản lý sản phẩm - những người nghiên cứu các chủ đề và viết báo cáo như một phần công việc của họ.
Tiêu chí thành công: Báo cáo chính xác, có nguồn tham khảo đáng tin cậy, bao quát các khía cạnh chính của chủ đề và tuân theo định dạng mà người dùng ưa thích.
Bước 2: Chọn kiến trúc
Quyết định: Agent đơn lẻ hay multi-agent?
Đánh giá bằng cách sử dụng framework từ Bài học 5:
Yếu tố
Đánh giá
Phạm vi tác vụ
Nhiều kỹ năng: Tìm kiếm, đọc, phân tích, viết
Số lượng công cụ
5-8 công cụ — dễ quản lý cho một agent
Nhu cầu ngữ cảnh
Phù hợp với hầu hết các chủ đề trong một cửa sổ ngữ cảnh duy nhất
Tính song song
Các bước nghiên cứu có thể được thực hiện song song, nhưng thực hiện theo trình tự sẽ đơn giản hơn
Quyết định: Bắt đầu với một agent duy nhất. Nhiệm vụ này phức tạp nhưng nằm trong khả năng của một agent. Nếu các chủ đề nghiên cứu thường xuyên vượt quá phạm vi ngữ cảnh, hãy tách thành Research Agent + Writing Agent sau này.
Bước 3: Chọn mẫu thiết kế
Chính: Planning + ReAct
Agent trước tiên lập kế hoạch nghiên cứu (những chủ đề phụ nào cần điều tra, những nguồn nào cần kiểm tra), sau đó thực hiện từng bước bằng cách sử dụng ReAct (Suy nghĩ → Hành động → Quan sát).
Phụ: Reflection
Sau khi soạn thảo báo cáo, agent phản ánh: Tất cả các tuyên bố đã được trích dẫn nguồn chưa? Cấu trúc có phù hợp với định dạng của người dùng không? Có những thiếu sót nào trong phạm vi bao phủ không?
[Plan] Chia chủ đề thành 4-5 chủ đề phụ
[ReAc] Nghiên cứu chủ đề phụ 1: Tìm kiếm → đọc → tổng hợp
[ReAc] Nghiên cứu chủ đề phụ 2: Tìm kiếm → đọc → tổng hợp
...
[[Draft] Viết báo cáo từ các phát hiện đã tổng hợp
[Reflect] Kiểm tra tính chính xác, đầy đủ, định dạng
[Revise] Khắc phục các vấn đề đã xác định trong quá trình suy ngẫm
[Deliver] Trả lại báo cáo cuối cùng
✅ Kiểm tra nhanh: Kế hoạch của agent bao gồm "Nghiên cứu chủ đề phụ: Ứng dụng điện toán lượng tử trong chăm sóc sức khỏe". Sau khi tìm kiếm, nó tìm thấy rất ít thông tin - chỉ có 2 nguồn, cả hai đều là bài đăng trên blog mang tính suy đoán. Agent lập kế hoạch thích ứng nên làm gì?
Câu trả lời: Lập kế hoạch lại. Agent nên lưu ý rằng chủ đề phụ này có nguồn thông tin không đủ đáng tin cậy, thông báo cho người dùng rằng phạm vi nghiên cứu sẽ bị hạn chế trong lĩnh vực này và có thể chuyển hướng nỗ lực nghiên cứu sang các chủ đề phụ được ghi chép tốt hơn. Nó KHÔNG nên bổ sung thêm các suy đoán từ những nguồn yếu. Kế hoạch sẽ thích ứng với những gì nghiên cứu thực sự tìm thấy.
Bước 4: Xác định công cụ
Công cụ
Mục đích
Khi nào sử dụng
web_search
Tìm kiếm thông tin hiện tại
Giai đoạn nghiên cứu
read_url
Trích xuất nội dung từ các trang web
Sau khi tìm thấy các URL có liên quan
file_read
Đọc tài liệu do người dùng cung cấp
Khi người dùng upload lên tài liệu tham khảo
file_write
Lưu lại báo cáo cuối cùng
Giai đoạn giao hàng
calculate
Kiểm tra lại số liệu và thống kê
Kiểm tra lại thông tin trong quá trình suy ngẫm
Mỗi công cụ đều được mô tả rõ ràng, giải thích khi nào nên sử dụng và khi nào không nên sử dụng.
Bước 5: Thiết kế bộ nhớ
Loại bộ nhớ
Nó lưu trữ những gì
Mẫu
Ngắn hạn
Bối cảnh nghiên cứu hiện tại, các nguồn tài liệu đã tìm thấy
Bộ nhớ buffer
Trạng thái hoạt động
Kế hoạch nghiên cứu, tiến độ từng chủ đề phụ
Trạng thái tác vụ với các checkpoint
Dài hạn
Tùy chọn định dạng của người dùng, các chủ đề trước đây
Bộ nhớ thực thể (profile người dùng)
Agent sẽ lưu lại các checkpoint sau khi nghiên cứu xong mỗi chủ đề phụ. Nếu bị gián đoạn, nó sẽ tiếp tục từ checkpoint cuối cùng thay vì khởi động lại.
Bước 6: Thêm các giới hạn bảo vệ
Nhập các giới hạn bảo vệ:
├── Kiểm tra phạm vi chủ đề: Đây có phải là chủ đề nghiên cứu mà chúng tôi có thể hỗ trợ không?
├── Bộ lọc nội dung độc hại: Chặn các yêu cầu thông tin độc hại
└── Ước tính độ dài: Cảnh báo nếu phạm vi chủ đề quá rộng
Ngăn chặn đầu ra:
├── Xác minh nguồn: Mỗi tuyên bố phải trích dẫn nguồn
├── Kiểm tra đạo văn: Không có đoạn văn dài sao chép nguyên văn mà không có trích dẫn
├── Tuân thủ định dạng: Cấu trúc báo cáo phù hợp với định dạng được yêu cầu
└── Gắn cờ độ tin cậy: Đánh dấu các phần có nguồn tham khảo hạn chế
Ngăn chặn công cụ:
├── Lọc URL: Không truy cập các miền bị chặn
└── Giới hạn tốc độ: Tối đa 20 lượt tìm kiếm trên web cho mỗi báo cáo
Bước 7: Đánh giá kế hoạch
Bộ kiểm thử (30 trường hợp):
15 chủ đề thông thường (các lĩnh vực khác nhau: công nghệ, kinh doanh, khoa học)
8 trường hợp ngoại lệ (chủ đề rất chuyên biệt, chủ đề rất rộng, sự kiện gần đây)
4 trường hợp đối kháng (chèn mã độc) (các lần thử, yêu cầu nằm ngoài phạm vi)
3 lần kiểm thử hồi quy (các trường hợp đã thất bại trước đó)
Số liệu:
Tỷ lệ hoàn thành nhiệm vụ mục tiêu: > 90%
Độ chính xác nguồn (được con người xác minh): > 95%
Tuân thủ định dạng: > 98%
Độ trễ trung bình: < 5 phút mỗi báo cáo
Danh sách kiểm tra thiết kế
Sử dụng danh sách này khi thiết kế bất kỳ hệ thống agent nào:
Kiến trúc:
□ Agent riêng lẻ hay multi-agent? (Được chứng minh bằng nhu cầu thực tế)
□ Mẫu thiết kế được lựa chọn (Phản ứng/Suy ngẫm/Lập kế hoạch)
□ Sự kết hợp các mẫu được xác định cho các tác vụ phức tạp
Công cụ:
□ Mỗi công cụ đều có mô tả rõ ràng về thời điểm sử dụng/không sử dụng
□ Đầu ra có cấu trúc cho đầu vào và đầu ra của công cụ
□ Công cụ dự phòng cho các khả năng quan trọng
Bộ nhớ:
□ Chiến lược ngắn hạn (buffer/cửa sổ trượt)
□ Chiến lược dài hạn (kho lưu trữ vector/bộ nhớ thực thể)
□ Quản lý trạng thái với checkpoint
Sản xuất:
□ Các giới hạn an toàn cho đầu vào, đầu ra và công cụ được xác định
□ Bộ kiểm thử bao gồm cả 4 loại
□ Khả năng quan sát với theo dõi phân tán
□ Khôi phục lỗi với các lần thử lại và công cụ ngừng
Những điểm chính cần ghi nhớ
Thiết kế hệ thống agent tuân theo một trình tự rõ ràng: Mục đích → kiến trúc → mẫu → công cụ → bộ nhớ → giới hạn an toàn → đánh giá
Bắt đầu với kiến trúc đơn giản nhất có thể hoạt động — Một agent đơn lẻ được thiết kế tốt với các công cụ hiệu quả sẽ đánh bại một hệ thống multi-agent phức tạp thiếu nền tảng vững chắc.
Mọi quyết định thiết kế cần được biện minh bằng nhu cầu thực tế, chứ không phải sự thanh lịch về mặt lý thuyết.
Lập kế hoạch thích ứng, mô tả công cụ rõ ràng và bộ nhớ đa lớp là những lựa chọn thiết kế có tác động cao nhất.
Sự sẵn sàng sản xuất đòi hỏi bốn trụ cột: An toàn (giới hạn bảo vệ), độ tin cậy (đánh giá), khả năng hiển thị (khả năng quan sát) và khả năng phục hồi (khôi phục lỗi).
Nguyên tắc cốt lõi: Nền tảng trước sự phức tạp - hãy làm đúng những điều cơ bản, sau đó mới thêm sự tinh vi.
Câu 1:
Sau khi hoàn thành khóa học này, nguyên tắc quan trọng nhất để xây dựng các AI agent đáng tin cậy là gì?
GIẢI THÍCH:
Đây là nguyên tắc cốt lõi của toàn bộ khóa học. Claude Code là một hệ thống đơn agent xử lý các tác vụ lập trình vô cùng phức tạp. Những yếu tố cơ bản - các prompt hệ thống rõ ràng, những công cụ được định nghĩa tốt, bộ nhớ phù hợp, các giơi hạn mạnh mẽ, đánh giá có hệ thống và khả năng quan sát tốt - quan trọng hơn nhiều so với độ phức tạp về kiến trúc. Hệ thống multi-agent, các mẫu nâng cao và bộ nhớ tinh vi là những công cụ cần sử dụng khi phương pháp đơn giản không đủ, chứ không phải là lựa chọn mặc định ngay từ đầu.
Câu 2:
Hệ thống agent của bạn xử lý 500 yêu cầu của khách hàng mỗi ngày. Vào ngày thứ 30, bạn nhận thấy chất lượng phản hồi trung bình đã giảm - điểm số giảm từ 4,2/5 xuống 3,6/5 trong vòng hai tuần. Phương pháp gỡ lỗi của bạn là gì?
GIẢI THÍCH:
Sự suy giảm chất lượng trong sản xuất có nguyên nhân gốc rễ - nhiệm vụ của bạn là tìm ra nó một cách có hệ thống. Bắt đầu bằng mối tương quan: Có bất kỳ thay đổi nào từ bên ngoài không (cập nhật mô hình, thay đổi API, lược đồ cơ sở dữ liệu)? Sau đó khoanh vùng: Hiệu suất có bị suy giảm trên toàn bộ sản phẩm hay chỉ một hạng mục (cho thấy vấn đề cụ thể về công cụ hoặc kiến thức)? Sau đó truy vết: Xem xét các phản hồi chất lượng thấp riêng lẻ và tìm ra bước mà chất lượng bị suy giảm. Phương pháp chẩn đoán này hiệu quả hơn nhiều so với việc thêm các biện pháp kiểm soát hoặc đào tạo lại một cách mù quáng, vốn chỉ điều trị triệu chứng thay vì nguyên nhân.
Câu 3:
Bạn đang thiết kế một hệ thống agent cho một công ty luật chuyên xem xét hợp đồng. Hệ thống cần trích xuất các điều khoản chính, đánh dấu những điều khoản rủi ro và đề xuất sửa đổi. Bạn sẽ chọn kiến trúc nào?
GIẢI THÍCH:
Việc xem xét hợp đồng là một nhiệm vụ tuần tự tự nhiên: Bạn phải trích xuất các điều khoản trước khi có thể phân tích rủi ro, và bạn phải xác định rủi ro trước khi đề xuất sửa đổi. Một quy trình hoàn toàn phù hợp với quy trình làm việc này. Mỗi agent có một nhiệm vụ tập trung với các công cụ cụ thể (trích xuất cần công cụ NLP, phân tích cần cơ sở dữ liệu rủi ro pháp lý, sửa đổi cần các mẫu điều khoản). Một agent đa năng sẽ cần tất cả các công cụ và ngữ cảnh cùng một lúc, khiến nó kém tin cậy hơn. Đối thoại ngang hàng làm tăng thêm chi phí phối hợp không cần thiết cho một nhiệm vụ tuần tự.
Theo Nghị định 147/2024/ND-CP, bạn cần xác thực tài khoản trước khi sử dụng tính năng này. Chúng tôi sẽ gửi mã xác thực qua SMS hoặc Zalo tới số điện thoại mà bạn nhập dưới đây: