Tìm hiểu về Claude Opus 4.6

Claude Opus 4.6 mới cải tiến kỹ năng lập trình so với phiên bản tiền nhiệm. Nó lập kế hoạch cẩn thận hơn, duy trì các tác vụ tự động lâu hơn, có thể hoạt động đáng tin cậy trong các cơ sở code lớn hơn, có kỹ năng xem xét code và gỡ lỗi tốt hơn để tự phát hiện lỗi của mình. Và, lần đầu tiên đối với các mô hình thuộc lớp Opus, Opus 4.6 có cửa sổ ngữ cảnh 1 triệu token trong phiên bản beta1.

Opus 4.6 cũng có thể áp dụng các khả năng được cải tiến của mình cho một loạt những tác vụ công việc hàng ngày: Chạy phân tích tài chính, nghiên cứu và sử dụng cũng như tạo tài liệu, bảng tính và bài thuyết trình. Trong Cowork, nơi Claude có thể tự động thực hiện đa nhiệm, Opus 4.6 sử dụng tất cả các kỹ năng này để hỗ trợ bạn.

Opus 4.6 là mô hình tiên tiến nhất trong các nhiệm vụ công việc thực tế trên nhiều lĩnh vực chuyên môn
Opus 4.6 là mô hình tiên tiến nhất trong các nhiệm vụ công việc thực tế trên nhiều lĩnh vực chuyên môn

Trong Claude Code, giờ đây bạn có thể tập hợp các nhóm agent để cùng nhau thực hiện các nhiệm vụ. Trên API, Claude có thể sử dụng tính năng nén để tóm tắt ngữ cảnh của chính nó và thực hiện các tác vụ dài hơn mà không gặp phải giới hạn. Claude cũng đang giới thiệu tư duy thích ứng, trong đó mô hình có thể nắm bắt các manh mối ngữ cảnh về mức độ sử dụng tư duy mở rộng của nó, và những điều khiển nỗ lực mới để cung cấp cho các nhà phát triển nhiều quyền kiểm soát hơn đối với trí thông minh, tốc độ và chi phí.

Nhà phát triển cũng đã thực hiện các nâng cấp đáng kể cho Claude trong Excel, và sẽ phát hành Claude trong PowerPoint trong bản xem trước nghiên cứu. Điều này làm cho Claude trở nên hữu ích hơn nhiều cho công việc hàng ngày.

Claude Opus 4.6 hiện có sẵn trên claude.ai, API và tất cả các nền tảng đám mây chính. Nếu bạn là nhà phát triển, hãy sử dụng claude-opus-4-6 thông qua API của Claude. Giá vẫn giữ nguyên ở mức 5$/25$ cho mỗi triệu token.

Ấn tượng ban đầu

Claude được xây dựng bằng chính nó. Các kỹ sư viết code bằng Claude Code mỗi ngày, và mọi mô hình mới đều được kiểm thử trên chính công việc của mình trước tiên. Với Opus 4.6, mô hình tập trung hơn vào những phần khó khăn nhất của một nhiệm vụ mà không cần phải chỉ dẫn, xử lý nhanh chóng các phần đơn giản hơn, giải quyết những vấn đề mơ hồ với khả năng phán đoán tốt hơn và duy trì năng suất trong các phiên làm việc dài hơn.

Opus 4.6 thường suy nghĩ sâu sắc hơn và xem xét lại lý luận của mình cẩn thận hơn trước khi đưa ra câu trả lời. Điều này tạo ra kết quả tốt hơn đối với các vấn đề khó hơn, nhưng có thể làm tăng chi phí và độ trễ đối với những vấn đề đơn giản hơn. Nếu thấy rằng mô hình đang suy nghĩ quá nhiều về một nhiệm vụ nhất định, bạn nên giảm nỗ lực từ cài đặt mặc định (cao) xuống trung bình. Bạn có thể dễ dàng kiểm soát điều này bằng tham số /effort.

Đánh giá Claude Opus 4.6

Trên các lĩnh vực lập trình agent, sử dụng máy tính, dùng công cụ, tìm kiếm và tài chính, Opus 4.6 là một mô hình hàng đầu trong ngành, thường vượt trội hơn hẳn. Bảng dưới đây cho thấy Claude Opus 4.6 so sánh với các mô hình trước đây và các mô hình khác trong ngành trên nhiều tiêu chí đánh giá.

Bảng so sánh Opus 4.6 với các mô hình khác
Bảng so sánh Opus 4.6 với các mô hình khác

Opus 4.6 tốt hơn nhiều trong việc truy xuất thông tin liên quan từ các tập tài liệu lớn. Điều này mở rộng đến những tác vụ ngữ cảnh dài, nơi nó lưu giữ và theo dõi thông tin trên hàng trăm nghìn token với độ lệch ít hơn, và phát hiện ra các chi tiết ẩn mà ngay cả Opus 4.5 cũng bỏ sót.

Một lời phàn nàn phổ biến về các mô hình AI là “sự suy giảm ngữ cảnh”, trong đó hiệu suất giảm sút khi những cuộc hội thoại vượt quá một số lượng từ nhất định. Opus 4.6 hoạt động tốt hơn đáng kể so với các phiên bản trước: trên biến thể 8 kim 1M của MRCR v2 - một bài kiểm tra khả năng tìm kiếm thông tin “ẩn” trong lượng lớn văn bản - Opus 4.6 đạt 76%, trong khi Sonnet 4.5 chỉ đạt 18,5%. Đây là một sự thay đổi về chất lượng trong việc một mô hình thực sự có thể sử dụng bao nhiêu ngữ cảnh trong khi vẫn duy trì hiệu suất cao nhất.

Tóm lại, Opus 4.6 tốt hơn trong việc tìm kiếm thông tin trong các ngữ cảnh dài, tốt hơn trong việc suy luận sau khi tiếp thu thông tin đó, và có khả năng suy luận ở cấp độ chuyên gia tốt hơn đáng kể nói chung.

Opus 4.6 cho thấy sự cải thiện đáng kể trong việc tìm kiếm ngữ cảnh dài
Opus 4.6 cho thấy sự cải thiện đáng kể trong việc tìm kiếm ngữ cảnh dài

Cuối cùng, các biểu đồ bên dưới cho thấy hiệu suất của Claude Opus 4.6 trên nhiều tiêu chí đánh giá khác nhau, bao gồm kỹ năng Software Engineering, khả năng lập trình đa ngôn ngữ, tính nhất quán lâu dài, khả năng an ninh mạng và kiến ​​thức về khoa học sự sống.

Opus 4.6 vượt trội trong việc chẩn đoán các lỗi phần mềm phức tạp
Opus 4.6 vượt trội trong việc chẩn đoán các lỗi phần mềm phức tạp

Một bước tiến về an toàn

Những tiến bộ về trí tuệ này không phải trả giá bằng sự an toàn. Trong cuộc kiểm tra hành vi tự động, Opus 4.6 cho thấy tỷ lệ hành vi không phù hợp thấp, chẳng hạn như lừa dối, nịnh hót, khuyến khích ảo tưởng của người dùng và hợp tác với việc lạm dụng. Nhìn chung, nó phù hợp tốt như phiên bản tiền nhiệm của nó, Claude Opus 4.5, vốn là mô hình tiên phong phù hợp nhất cho đến nay. Opus 4.6 cũng cho thấy tỷ lệ từ chối quá mức thấp nhất - nơi mô hình không trả lời các truy vấn vô hại - so với bất kỳ mô hình Claude gần đây nào.

Biểu đồ cột so sánh Opus 4.6 với các mô hình Claude khác về hành vi không phù hợp tổng thể
Biểu đồ cột so sánh Opus 4.6 với các mô hình Claude khác về hành vi không phù hợp tổng thể

Claude Opus 4.6 đã thực hiện bộ đánh giá an toàn toàn diện nhất so với bất kỳ mô hình nào khác, áp dụng nhiều bài kiểm tra khác nhau lần đầu tiên và nâng cấp một số bài kiểm tra đã sử dụng trước đây, bao gồm các đánh giá mới về sự an toàn của người dùng, những bài kiểm tra phức tạp hơn về khả năng từ chối các yêu cầu có khả năng nguy hiểm của mô hình, và những đánh giá được cập nhật về khả năng thực hiện các hành động gây hại một cách lén lút của mô hình. Các phương pháp mới, từ khả năng giải thích, khoa học về hoạt động bên trong của các mô hình AI, cũng đã được thử nghiệm để bắt đầu hiểu tại sao mô hình lại hành xử theo những cách nhất định - và cuối cùng, để phát hiện ra các vấn đề mà các bài kiểm tra tiêu chuẩn có thể bỏ sót.

Thứ Tư, 04/03/2026 17:00
31 👨 27
Xác thực tài khoản!

Theo Nghị định 147/2024/ND-CP, bạn cần xác thực tài khoản trước khi sử dụng tính năng này. Chúng tôi sẽ gửi mã xác thực qua SMS hoặc Zalo tới số điện thoại mà bạn nhập dưới đây:

Số điện thoại chưa đúng định dạng!
Số điện thoại này đã được xác thực!
Bạn có thể dùng Sđt này đăng nhập tại đây!
Lỗi gửi SMS, liên hệ Admin
0 Bình luận
Sắp xếp theo