Tạo bộ kiểm thử đàm thoại
Đánh giá đàm thoại cho phép bạn đánh giá hành vi tổng thể của agent trong một tương tác dài hơn. Nó phản ánh cách người dùng thực tương tác với agent, trong đó mỗi phản hồi phụ thuộc vào ngữ cảnh trước đó trong một cuộc đàm thoại đang diễn ra. Bạn có thể sử dụng các đánh giá này để xác định xem agent có thể duy trì ngữ cảnh, yêu cầu làm rõ và hoàn thành những nhiệm vụ nhiều bước hay không.
Bạn cũng có thể chạy các đánh giá phản hồi đơn lẻ, rất hữu ích khi bạn muốn kiểm tra agent về cách nó trả lời các câu hỏi cụ thể, về những khả năng nó gọi và về từ ngữ chính xác mà nó sử dụng trong câu trả lời của mình.
Các đánh giá sử dụng những bộ công cụ test. Một bộ công cụ test cho đánh giá đàm thoại bao gồm một nhóm tối đa 20 trường hợp kiểm thử. Khi chạy đánh giá agent, bạn chọn một bộ công cụ test và Copilot Studio sẽ chạy từng trường hợp kiểm thử trong bộ đó đối với agent của bạn.
Bạn có thể tạo các trường hợp kiểm thử trong một bộ công cụ test bằng cách nhập chúng bằng bảng tính hoặc sử dụng AI để tạo tin nhắn dựa trên thiết kế và tài nguyên của agent. Sau đó, bạn có thể chọn cách bạn muốn đo lường chất lượng phản hồi của agent cho mỗi trường hợp kiểm thử trong một bộ công cụ test.
Để biết thêm thông tin về cách thức hoạt động của việc đánh giá agent, hãy xem phần Tổng quan về đánh giá agent.
Lưu ý quan trọng: Kết quả kiểm thử sẽ được lưu trữ trong Copilot Studio trong 89 ngày. Để lưu kết quả kiểm thử trong thời gian dài hơn, hãy xuất kết quả sang file CSV.
Tạo bộ công cụ test đàm thoại
1. Truy cập trang Evaluation của agent.

2. Chọn New evaluation, sau đó chọn Conversation

3. Bạn có thể tạo các trường hợp kiểm thử nhiều lượt bằng bất kỳ phương pháp nào sau đây:
- Quick conversation set: Tự động tạo 10 cuộc đàm thoại ngắn dựa trên mô tả, hướng dẫn và khả năng của agent.
- Full conversation set: Tạo các cuộc đàm thoại bằng cách sử dụng kiến thức của agent hoặc những chủ đề đã xác định. Trong tùy chọn này, bạn có thể chọn tạo các cuộc đàm thoại ngắn hoặc dài.
- Use your test chat: Chuyển đổi cuộc trò chuyện kiểm thử mới nhất thành một trường hợp kiểm thử.
Lưu ý: Bộ công cụ test đàm thoại hỗ trợ tối đa 20 trường hợp kiểm thử. Mỗi trường hợp kiểm thử hỗ trợ tối đa 12 tin nhắn, tương đương với 6 cặp câu hỏi và câu trả lời.
4. Dưới mục Name, nhập tên cho bộ công cụ test của bạn.
5. Thay đổi hoặc thêm các phương pháp kiểm thử bạn muốn sử dụng. Đối với bộ công cụ test đàm thoại, bạn có thể thêm các phương pháp test tùy chỉnh General quality, Keyword match, Capabilities match hoặc Classification.
- Thêm phương pháp mới:
- Chọn Add test method.
- Chọn tất cả các phương pháp bạn muốn kiểm thử, sau đó chọn OK. Bạn có thể thêm nhiều phương pháp.
- Đối với một số phương pháp, hãy đặt điểm đạt, sau đó chọn OK. Điểm đạt sẽ xác định điểm nào dẫn đến đạt hoặc không đạt.
- Một số phương pháp yêu cầu thêm các phản hồi hoặc từ khóa dự kiến cho mỗi trường hợp kiểm thử của bạn.
- Chọn một phương pháp kiểm thử hiện có để chỉnh sửa hoặc xóa.
| Phương pháp thử nghiệm | Đo lường | Loại bộ công cụ test | Chấm điểm | Cấu hình |
|---|---|---|---|---|
| General quality | Phản hồi của trường hợp kiểm thử tốt đến mức nào dựa trên các đặc tính cụ thể | Phản hồi đơn lẻ hoặc cuộc hội thoại | Điểm số trên thang điểm 100% | Không |
| Compare meaning | Mức độ phù hợp giữa ý nghĩa của câu trả lời trong trường hợp kiểm thử và câu trả lời mong đợi | Phản hồi đơn lẻ | Điểm số trên thang điểm 100% | Điểm đạt, câu trả lời dự kiến |
| Capability use | Liệu trường hợp thử nghiệm có sử dụng tất cả hoặc bất kỳ tài nguyên nào được dự kiến hay không | Phản hồi đơn lẻ | Đạt/Không đạt | Khả năng dự kiến |
| Keyword match | Liệu trường hợp thử nghiệm có sử dụng tất cả hoặc bất kỳ từ khóa hoặc cụm từ nào được mong đợi hay không | Phản hồi đơn lẻ hoặc cuộc hội thoại | Đạt/Không đạt | Các từ khóa hoặc cụm từ dự kiến |
| Text similarity | Mức độ phù hợp giữa nội dung câu trả lời của bài test và câu trả lời mong đợi | Phản hồi đơn lẻ | Điểm số trên thang điểm 100% | Điểm đạt, câu trả lời dự kiến |
| Exact match | Liệu kết quả của trường hợp kiểm thử có khớp chính xác với kết quả mong đợi hay không | Phản hồi đơn lẻ | Đạt/Không đạt | Câu trả lời dự kiến |
| Custom | Liệu phản hồi của trường hợp thử nghiệm có đáp ứng các tiêu chí hoặc kỳ vọng đã định của bạn hay không | Phản hồi đơn lẻ hoặc cuộc hội thoại | Đạt/Không đạt (đáp ứng các tiêu chí nhãn đã định nghĩa) | Tên, hướng dẫn đánh giá, nhãn |
6. Chỉnh sửa chi tiết các trường hợp kiểm thử. Tất cả các phương pháp kiểm thử, ngoại trừ kiểm thử chất lượng chung, đều yêu cầu phản hồi hoặc từ khóa dự kiến.
7. Chọn User profile, sau đó chọn hoặc thêm tài khoản bạn muốn sử dụng cho bộ công cụ test này, hoặc tiếp tục mà không cần xác thực. Quá trình đánh giá sử dụng tài khoản này để kết nối với các nguồn kiến thức và công cụ trong quá trình kiểm thử.
Lưu ý: Kiểm thử tự động sử dụng xác thực của tài khoản kiểm thử đã chọn. Nếu agent của bạn có các nguồn kiến thức hoặc kết nối yêu cầu xác thực cụ thể, hãy chọn tài khoản phù hợp cho quá trình kiểm thử của mình.
9. Chỉnh sửa hoặc tạo thêm trường hợp kiểm thử.
10. Chọn Save để cập nhật bộ công cụ test mà không chạy các trường hợp kiểm thử hoặc Evaluate để chạy bộ công cụ test ngay lập tức.
Bạn nên đọc
Theo Nghị định 147/2024/ND-CP, bạn cần xác thực tài khoản trước khi sử dụng tính năng này. Chúng tôi sẽ gửi mã xác thực qua SMS hoặc Zalo tới số điện thoại mà bạn nhập dưới đây:
Cũ vẫn chất
-

Những bài thơ về Mẹ hay và ý nghĩa chạm tới trái tim người đọc
3 ngày 2 -

Những câu nói hay về người 2 mặt, về lòng người khó đoán
3 ngày -

Cách ngừng cập nhật Windows trên PC
3 ngày 18 -

8 cách chuyển ảnh từ iPhone sang iPhone nhanh chóng
3 ngày -

Mừng Tết Bính Ngọ, nhận lì xì tới 52.268 điểm Viettel++
3 ngày 1 -

Làm thế nào để sử dụng iMessage trên máy tính Windows?
3 ngày -

Hướng dẫn tắt Microsoft Edge trên Windows
3 ngày -

Công cụ tính điểm tốt nghiệp THPT 2026 cực kì chính xác
3 ngày 2 -

Tổng hợp code Yong Heroes 2: Phong Vân Tái Khởi
3 ngày -

Xem quá trình lắp cấu trúc nặng 600 tấn của máy dò hạt ma tại đài quan sát dưới lòng đất
3 ngày
Hướng dẫn AI
Học IT
Hàm Excel
Download