Một trong những thách thức lớn khi triển khai AI agent tự động là khả năng thích nghi với môi trường mới. Thông thường, khi hệ thống thay đổi, các nhóm kỹ thuật phải huấn luyện lại mô hình ngôn ngữ lớn (LLM) hoặc xây dựng lại các kỹ năng thủ công, một quy trình tốn thời gian và chi phí.
Memento-Skills – một framework mới được phát triển bởi các nhà nghiên cứu từ nhiều trường đại học – đang tìm cách giải quyết vấn đề này. Điểm đặc biệt của Memento-Skills là cho phép AI agent tự phát triển và cập nhật kỹ năng của mình mà không cần huấn luyện lại mô hình nền tảng.
Theo Jun Wang, đồng tác giả nghiên cứu, Memento-Skills bổ sung khả năng học liên tục cho các hệ thống agent hiện tại như OpenClaw hay Claude Code. Thay vì thay đổi trực tiếp mô hình ngôn ngữ, framework này hoạt động như một bộ nhớ ngoài có thể phát triển theo thời gian, giúp agent nâng cao năng lực dựa trên phản hồi thực tế.
Điều này đặc biệt quan trọng với các doanh nghiệp triển khai AI agent trong môi trường production. Nếu phải fine-tune mô hình hoặc xây dựng kỹ năng thủ công, chi phí vận hành sẽ tăng lên đáng kể. Memento-Skills giúp tránh cả hai vấn đề này bằng cách cho phép hệ thống tự cải thiện theo thời gian.
Vì sao AI agent tự tiến hóa lại quan trọng?
Các mô hình ngôn ngữ lớn sau khi triển khai thường bị “đóng băng” — tức là các tham số không thay đổi. Điều này khiến chúng bị giới hạn bởi dữ liệu huấn luyện ban đầu và lượng thông tin nằm trong context window.
Việc bổ sung bộ nhớ ngoài cho phép agent học hỏi liên tục mà không cần huấn luyện lại toàn bộ mô hình. Tuy nhiên, các phương pháp hiện tại vẫn còn nhiều hạn chế. Phần lớn hệ thống dựa vào các kỹ năng được thiết kế thủ công, hoặc chỉ tạo ra các hướng dẫn dạng văn bản mang tính tối ưu prompt, chưa thực sự cải thiện khả năng hành động.
Ngoài ra, nhiều hệ thống còn gặp vấn đề khi truy xuất kỹ năng phù hợp. Phần lớn sử dụng phương pháp tìm kiếm dựa trên độ tương đồng ngữ nghĩa. Nhưng tương đồng về ngữ nghĩa không đồng nghĩa với việc kỹ năng đó hữu ích về mặt hành vi. Ví dụ, một hệ thống có thể lấy nhầm script “reset mật khẩu” khi xử lý yêu cầu “hoàn tiền” chỉ vì hai tài liệu có từ ngữ doanh nghiệp giống nhau.
Memento-Skills hoạt động như thế nào?
Để khắc phục những hạn chế này, các nhà nghiên cứu đã xây dựng Memento-Skills như một hệ thống agent có khả năng tự thiết kế kỹ năng.
Thay vì chỉ lưu lại lịch sử hội thoại, Memento-Skills tạo ra các kỹ năng dưới dạng file markdown có cấu trúc. Mỗi kỹ năng bao gồm ba thành phần chính: mô tả chức năng và cách sử dụng, hướng dẫn giúp mô hình suy luận, và mã thực thi hoặc script hỗ trợ để giải quyết nhiệm vụ.
Hệ thống học liên tục thông qua cơ chế "Read-Write Reflective Learning". Khi gặp nhiệm vụ mới, agent sẽ truy xuất kỹ năng phù hợp nhất về hành vi, sau đó thực thi và nhận phản hồi. Dựa trên kết quả này, hệ thống sẽ tự điều chỉnh kỹ năng hiện có hoặc tạo kỹ năng mới nếu cần.

Nếu nhiệm vụ thất bại, hệ thống sẽ phân tích nguyên nhân và sửa trực tiếp mã hoặc prompt liên quan. Ngoài ra, bộ định tuyến kỹ năng cũng được cập nhật bằng phương pháp học tăng cường, giúp lựa chọn kỹ năng hiệu quả hơn trong tương lai.
Để đảm bảo độ an toàn trong môi trường production, Memento-Skills còn sử dụng hệ thống kiểm thử tự động. Trước khi lưu thay đổi, hệ thống sẽ tạo test case và kiểm tra kết quả để tránh lỗi phát sinh.

Hiệu quả thực tế: AI tự học nhanh hơn đáng kể
Nhóm nghiên cứu đã thử nghiệm Memento-Skills trên hai benchmark phức tạp gồm GAIA và Humanity’s Last Exam (HLE). Toàn bộ hệ thống sử dụng Gemini-3.1-Flash làm mô hình nền tảng.
Kết quả cho thấy hệ thống tự tiến hóa vượt trội so với thư viện kỹ năng tĩnh. Trên benchmark GAIA, độ chính xác tăng từ 52,3% lên 66%. Trên HLE, hiệu suất thậm chí tăng gấp đôi từ 17,9% lên 38,7%.

Đặc biệt, adapter kỹ năng mới giúp tỷ lệ hoàn thành nhiệm vụ tăng lên 80%, so với 50% khi dùng phương pháp truy xuất truyền thống.
Điều đáng chú ý là hệ thống bắt đầu chỉ với 5 kỹ năng cơ bản như tìm kiếm web hay thao tác terminal. Sau quá trình học, agent tự mở rộng lên 41 kỹ năng trong GAIA và 235 kỹ năng trong benchmark HLE.
Doanh nghiệp nên áp dụng khi nào?
Các nhà nghiên cứu cho rằng Memento-Skills phù hợp nhất với môi trường workflow có cấu trúc rõ ràng, nơi các nhiệm vụ lặp lại và kỹ năng có thể tái sử dụng.
Nếu các nhiệm vụ rời rạc và ít liên quan đến nhau, khả năng chuyển giao kỹ năng sẽ bị hạn chế. Ngược lại, khi các nhiệm vụ có cấu trúc tương tự, agent có thể học nhanh hơn và cải thiện hiệu suất đáng kể.
Tuy nhiên, nhóm nghiên cứu cũng cảnh báo rằng các agent vật lý hoặc nhiệm vụ dài hạn phức tạp vẫn cần thêm nghiên cứu. Trong những trường hợp này, hệ thống multi-agent có thể là giải pháp phù hợp hơn.
Tương lai của AI agent tự cải thiện
Khi AI agent bắt đầu tự viết lại kỹ năng và mã production, vấn đề quản trị và bảo mật trở nên quan trọng hơn bao giờ hết. Mặc dù Memento-Skills đã có cơ chế kiểm thử tự động, doanh nghiệp vẫn cần hệ thống đánh giá và giám sát toàn diện.
Theo nhóm nghiên cứu, quá trình tự cải thiện cần được hướng dẫn thay vì để AI tự thay đổi không kiểm soát. Phản hồi và đánh giá đóng vai trò quan trọng để đảm bảo hệ thống tiến hóa theo hướng an toàn và hiệu quả.
Memento-Skills cho thấy một bước tiến mới trong kỷ nguyên AI agent: thay vì chỉ thực thi nhiệm vụ, AI giờ đây có thể tự học, tự sửa lỗi và tự mở rộng khả năng của mình theo thời gian. Điều này có thể giúp các doanh nghiệp xây dựng những hệ thống AI linh hoạt và bền vững hơn trong tương lai.
Hướng dẫn AI
Học IT










Hàm Excel