Cửa sổ ngữ cảnh: Bộ nhớ làm việc của AI

Hãy hiểu cách thức hoạt động của cửa sổ ngữ cảnh, tại sao cửa sổ ngữ cảnh lớn không phải lúc nào cũng tốt hơn, và cách phân bổ token như một nguồn tài nguyên có hạn để tạo ra đầu ra AI chất lượng cao và nhất quán.

Hãy nghĩ về lần cuối bạn ôn thi cấp tốc. Bạn đọc mọi thứ — các chương sách giáo khoa, ghi chú bài giảng, bài tập thực hành, bài viết trên Wikipedia. Tất cả thông tin đó cứ lơ lửng trong đầu bạn. Và rồi bạn ngồi xuống, nhìn chằm chằm vào câu hỏi đầu tiên, và đầu óc bạn trở nên… mờ mịt.

Về cơ bản, đó là những gì xảy ra khi bạn làm quá tải cửa sổ ngữ cảnh của AI. Nhiều hơn không phải lúc nào cũng tốt hơn.

Cửa sổ ngữ cảnh thực chất là gì?

Mỗi mô hình AI đều có một cửa sổ ngữ cảnh — một bộ nhớ làm việc có kích thước cố định được đo bằng token. Một token xấp xỉ 3/4 từ trong tiếng Anh. Vì vậy, khi bạn thấy "cửa sổ ngữ cảnh 200K", điều đó có nghĩa là khoảng 150.000 từ. Khoảng 300 trang của một cuốn tiểu thuyết.

Nhưng đây là điều mà hầu hết mọi người bỏ qua: Cửa sổ ngữ cảnh được chia sẻ giữa đầu vào và đầu ra. Nếu bạn sử dụng 190.000 token đầu vào trong cửa sổ 200.000 token, AI chỉ còn lại 10.000 token để phản hồi. Đó là công thức dẫn đến kết quả đầu ra bị cắt xén và vội vàng.

Đây là những gì các mô hình chính cung cấp vào đầu năm 2026:

Mô hìnhCửa sổ ngữ cảnhSố trang ước tính
Claude 3.5/4200K token~300 trang
GPT-4o128K token~190 trang
Gemini 1.5 Pro1M+ token~1.500 trang
Llama 3.1128K token~190 trang
Mistral Large128K token~190 trang

Những con số đó trông rất lớn. Và đúng là vậy. Nhưng kích thước không phải là yếu tố duy nhất quyết định chất lượng.

Kiểm tra nhanh: Nếu một mô hình có cửa sổ ngữ cảnh 128.000 token và bạn load 100.000 token đầu vào, thì có bao nhiêu token khả dụng cho phản hồi của AI?

Đáp án: Khoảng 28.000 token — tương đương khoảng 21.000 từ. Nghe có vẻ nhiều, nhưng các tác vụ phân tích phức tạp có thể cần đến không gian đó. Và khả năng hiểu 100.000 token đầu vào của AI có thể đã bị suy giảm.

Vấn đề "mất tích giữa chừng"

Năm 2023, các nhà nghiên cứu tại Stanford đã công bố một bài báo có tên "mất tích giữa chừng" (Lost in the Middle) đã thay đổi cách các chuyên gia suy nghĩ về ngữ cảnh. Phát hiện này rất đáng chú ý: Các mô hình ngôn ngữ lớn (LLM) chú trọng nhất đến phần đầu và cuối cửa sổ ngữ cảnh của chúng, và ít chú ý hơn đáng kể đến phần giữa.

Hãy hình dung một đường cong chú ý hình chữ U. 10-20% đầu tiên của ngữ cảnh? Chú ý cao. 10-20% cuối cùng? Chú ý cao. Mọi thứ ở giữa? Mô hình đang đọc lướt.

Điều này có ý nghĩa thực tiễn rất lớn:

  • Đặt những hướng dẫn quan trọng nhất lên đầu (prompt hệ thống) và cuối cùng (thông báo cuối cùng cho người dùng)
  • Đừng chôn vùi dữ liệu quan trọng ở giữa một tài liệu dài
  • Cấu trúc nội dung dài bằng các tiêu đề phần rõ ràng để mô hình có thể điều hướng
  • Tóm tắt và lặp lại các điểm chính ở cuối nếu bạn đang làm việc với đầu vào dài

Đây là một kịch bản thực tế. Bạn đang sử dụng AI để phân tích một hợp đồng dài 40 trang. Bạn dán hợp đồng và thêm vào cuối: "Tìm tất cả các điều khoản liên quan đến sở hữu trí tuệ". AI hoạt động tốt vì hướng dẫn của bạn nằm ở cuối — vùng chú ý cao. Nhưng nếu bạn đặt hướng dẫn đó giữa trang 15 và trang 16 của hợp đồng? Nó có thể bỏ sót hoàn toàn.

Vậy bạn nên đặt mọi thứ ở đâu?

  • Đầu (prompt hệ thống): Vai trò, quy tắc hành vi, định dạng đầu ra
  • Giữa: Dữ liệu tham chiếu, tài liệu, ngữ cảnh hỗ trợ nhiệm vụ
  • Cuối (thông báo cho người dùng): Nhiệm vụ cụ thể, các ràng buộc quan trọng, câu hỏi

Đó là chiến lược "bánh sandwich". Những thứ quan trọng ở trên bánh mì. Dữ liệu hỗ trợ làm nhân.

Kiểm tra nhanh: Bạn đang cung cấp một tài liệu kỹ thuật 100 trang cho AI và yêu cầu nó tìm các cảnh báo an toàn. Bạn nên đặt hướng dẫn tìm chúng ở đâu?

Câu trả lời: Ở cuối cùng, như thông báo cuối cùng cho người dùng. Hiệu ứng "mất tích giữa chừng" có nghĩa là AI tập trung mạnh nhất vào nội dung ở đầu và cuối ngữ cảnh. Đặt hướng dẫn nhiệm vụ của bạn ở cuối sẽ đưa nó vào vùng được chú ý cao.

Ngân sách token: Ngữ cảnh như một nguồn tài nguyên có hạn

Đây là sự thay đổi tư duy phân biệt các kỹ sư tạo ngữ cảnh giỏi với những người xuất sắc: Hãy coi cửa sổ ngữ cảnh của bạn như một ngân sách.

Bạn có X token để chi tiêu. Mỗi token bạn sử dụng cho một việc là một token bạn không thể sử dụng cho việc khác. Vì vậy, bạn cần phải đưa ra lựa chọn.

Giả sử bạn đang xây dựng một AI hỗ trợ khách hàng với cửa sổ ngữ cảnh 128K token. Đây là cách ngân sách ngữ cảnh có thể trông như thế nào:

Thành phầnToken% ngân sách
Prompt hệ thống (vai trò, quy tắc, giọng điệu)2,0001.5%
Kho kiến ​​thức sản phẩm (các bài viết quan trọng)30,00023%
Lịch sử cuộc trò chuyện15,00012%
Hỗ trợ khách hàng hiện tại + siêu dữ liệu3,0002.5%
Ví dụ few-shot (5 câu trả lời xuất sắc)10,0008%
Tổng đầu vào60,00047%
Dành riêng cho phản hồi của AI20,00015%
Buffer (không sử dụng)48,00038%

Hãy để ý đến buffer đó. Gần 40% cửa sổ ngữ cảnh bị trống. Và đó là điều được thiết kế sẵn.

Tại sao cửa sổ ngữ cảnh lớn hơn không phải lúc nào cũng tốt hơn?

Gemini có thể xử lý hơn 1 triệu token. Vậy tại sao không chỉ đổ tất cả vào đó?

Ba lý do:

1. Chất lượng giảm dần theo độ dài. Nhiều nghiên cứu cho thấy hiệu suất của mô hình giảm khi độ dài ngữ cảnh tăng lên — ngay cả trong phạm vi cửa sổ được hỗ trợ. Một mô hình trả lời các câu hỏi về một tài liệu 1.000 token sẽ hoạt động tốt hơn cùng một mô hình đó khi trả lời cùng những câu hỏi đó về cùng một tài liệu nhưng bị chôn vùi trong 500.000 token của các nội dung khác.

2. Chi phí tăng theo tỷ lệ tuyến tính. Giá API được tính trên mỗi token. Gửi 500.000 token khi bạn chỉ cần 50.000 token có nghĩa là bạn đang trả gấp 10 lần cho cùng một kết quả (hoặc tệ hơn).

3. Độ trễ tăng lên. Nhiều token hơn = thời gian xử lý lâu hơn. Trong các hệ thống sản xuất, đó là sự khác biệt giữa phản hồi 2 giây và phản hồi 20 giây.

Điểm tối ưu là khoảng 70% mức sử dụng cho hầu hết các tác vụ. Đủ ngữ cảnh để cung cấp cho AI những gì nó cần. Đủ buffer cho một phản hồi hoàn chỉnh. Không quá nhiều đến mức ảnh hưởng đến chất lượng.

Nhưng 70% không phải là một quy tắc cứng nhắc. Các tác vụ đơn giản có thể chỉ cần 10-20% cửa sổ. Phân tích phức tạp với nhiều tài liệu tham khảo có thể đẩy lên 80-85%. Nguyên tắc là: sử dụng những gì bạn cần, chứ không phải những gì bạn có thể.

Kiểm tra nhanh: Một nhóm load toàn bộ cuốn sổ tay nhân viên 200 trang (khoảng 150.000 token) vào cửa sổ ngữ cảnh 200.000 token của Claude để trả lời một câu hỏi đơn giản về chính sách nghỉ phép của bộ phận nhân sự. Cách tiếp cận này có vấn đề gì?

Câu trả lời: Ba điều — họ đang sử dụng khoảng 75% cửa sổ ngữ cảnh cho thông tin hầu hết không liên quan đến câu hỏi, vấn đề "mất tích giữa chừng" có nghĩa là AI có thể không tìm thấy chính sách nghỉ phép bị chôn vùi trong 200 trang, và họ đã để lại rất ít chỗ cho một câu trả lời chu đáo. Cách tiếp cận tốt hơn: Chỉ trích xuất phần chính sách nghỉ phép, có thể 2-3 trang, và gửi phần đó thay thế.

Bài tập thực hành: Ước tính ngân sách token của bạn

Chọn một nhiệm vụ thực tế mà bạn sử dụng AI — viết email, phân tích dữ liệu, xem xét code, bất cứ điều gì. Bây giờ hãy ước tính:

  1. Prompt hệ thống: Cần bao nhiêu token để xác định vai trò và quy tắc? (Thường là 500-2.000)
  2. Dữ liệu tham khảo: AI thực sự cần bao nhiêu ngữ cảnh? (Hãy thẳng thắn — điều gì là thiết yếu so với điều gì là tốt nếu có?)
  3. Ví dụ: Có bao nhiêu ví dụ few-shot xuất hiện, và mỗi ví dụ dài bao nhiêu? (3-5 ví dụ × 200-500 token mỗi ví dụ)
  4. Nhiệm vụ thực tế: Cần bao nhiêu token cho đầu vào bạn đang xử lý?
  5. Phòng phản hồi: Đầu ra của AI nên dài bao nhiêu?

Hãy cộng tổng lại. So sánh với cửa sổ ngữ cảnh của mô hình. Nếu bạn đạt trên 80%, hãy cắt bớt. Nếu bạn đạt dưới 30%, hãy cân nhắc thêm ví dụ hoặc tài liệu tham khảo.

Bài tập này chỉ mất 5 phút. Nhưng nó sẽ thay đổi cách bạn suy nghĩ về mọi tương tác với AI trong tương lai. Bạn sẽ ngừng hỏi "Tôi có thể thêm gì?" và bắt đầu hỏi "Tôi phải bao gồm những gì?"

Xây dựng ngân sách token của bạn

Đừng ước tính token thủ công — hãy để AI tính toán. Mở Claude, ChatGPT hoặc Gemini và dán prompt này. Điền vào các ô trong ngoặc vuông với một nhiệm vụ thực tế mà bạn sử dụng AI hiện nay.

📋 Cách sao chép prompt này: Nhấp vào bất kỳ đâu bên trong khối màu xám, nhấn Cmd+A rồi Cmd+C (Mac) hoặc Ctrl+A rồi Ctrl+C (Windows). Hoặc sử dụng biểu tượng sao chép xuất hiện.

Hãy đóng vai trò là người thiết kế bối cảnh. Xây dựng cho tôi một bảng phân bổ ngân sách token cho nhiệm vụ này, sau đó đánh dấu bất kỳ mức sử dụng nào vượt quá 70%.

Nhiệm vụ của tôi: [ví dụ: phân tích phiếu hỗ trợ khách hàng, soạn thảo email tiếp thị, tóm tắt bài nghiên cứu]

Mô hình tôi sử dụng: [ví dụ: Claude 3.5 Sonnet / GPT-4o / Gemini 1.5 Pro / Claude 4] (hãy tra cứu cửa sổ ngữ cảnh của nó nếu bạn biết)

Những gì tôi hiện đang gửi kèm mỗi yêu cầu:
- Prompt hệ thống (vai trò + quy tắc): [dán vào, hoặc mô tả những gì bạn muốn AI thực hiện]
- Tài liệu tham khảo: [mô tả những gì bạn đính kèm — tài liệu, ví dụ, các cuộc hội thoại trước đây]
- Đầu vào thực tế tôi đang xử lý: [mô tả kích thước — ví dụ: phiếu 2 trang, PDF 10 trang]
- Độ dài tôi muốn nhận phản hồi: [ví dụ: 300 từ / 2 đoạn văn / một bài phân tích đầy đủ]

Đối với mỗi thành phần:
1. Ước tính số token (sử dụng 1 từ ≈ 1.3 token làm quy tắc chung).
2. Tính toán phần trăm cửa sổ ngữ cảnh của mô hình.
3. Cộng tổng các mục lại, bao gồm cả thời gian dự phòng phản hồi, và hiển thị thời gian dự phòng còn lại.

Sau đó, hãy cho tôi biết:
- Kết luận (DƯỚI 70% / Ở MỨC 70% / TRÊN 70%)
- Nếu TRÊN 70%, 2 điều quan trọng nhất tôi nên cắt giảm hoặc rút gọn, theo thứ tự ưu tiên
- Một câu về vị trí đặt các hướng dẫn quan trọng (đầu hay cuối) dựa trên hiệu ứng "mất tích giữa chừng"

✏️ Cách điền thông tin chi tiết: Thay thế mỗi dấu ngoặc vuông [] và trình giữ chỗ trong ngoặc bằng thông tin cụ thể từ tình huống thực tế của bạn. Thông tin đầu vào mơ hồ sẽ tạo ra kết quả mơ hồ — hãy nêu cụ thể.

Những gì bạn sẽ thấy: Một bảng đã được điền đầy đủ như bảng trên, một kết luận và những việc cần làm cụ thể. Bạn thường sẽ nhận thấy mình đang lãng phí 20-40% ngữ cảnh vào những thứ mà AI không cần.

📌 Cách xử lý kết quả: Lưu phản hồi vào một file Notes. Chọn đề xuất có tác động cao nhất và thực hiện nó trong tuần này — đừng cố gắng làm tất cả mọi thứ cùng một lúc.

⚠️ Nếu kết quả không ổn: Nếu các đề xuất có vẻ chung chung, hãy dán nội dung sau: "Hãy cụ thể hơn với ngữ cảnh thực tế của tôi. Bỏ những lời khuyên chung chung". Nếu nó bỏ qua các chi tiết quan trọng mà bạn đã cung cấp, hãy hỏi: "Bạn đã bỏ sót [X] trong ngữ cảnh của tôi — hãy thực hiện lại với điều đó làm ràng buộc chính".

Nếu AI báo không thể ước tính số token, hãy dán văn bản gốc của tài liệu tham khảo và hỏi: "Đếm sơ bộ xem đoạn này có bao nhiêu token, sử dụng 1 từ ≈ 1,3 token". Hầu hết các mô hình đều làm tốt điều này nếu bạn cung cấp cho chúng văn bản nguồn.

Những điểm chính cần ghi nhớ

  • Cửa sổ ngữ cảnh được chia sẻ giữa đầu vào và đầu ra — mỗi token đầu vào làm giảm không gian phản hồi khả dụng
  • Các mô hình có đường cong chú ý hình chữ U — chúng tập trung nhiều nhất vào đầu và cuối, ít hơn vào giữa
  • Đặt các hướng dẫn quan trọng lên đầu (prompt hệ thống) và cuối cùng (thông báo cuối cùng cho người dùng) — kẹp dữ liệu của bạn ở giữa
  • Coi ngữ cảnh như một ngân sách — phân bổ token một cách có chủ đích, đừng chỉ đổ tất cả vào
  • Mục tiêu là đạt được mức sử dụng khoảng 70% làm điểm khởi đầu — nhiều hơn không phải lúc nào cũng tốt hơn
  • Chi phí và độ trễ tỷ lệ thuận với số lượng token, vì vậy ngữ cảnh gọn nhẹ hơn sẽ rẻ hơn và nhanh hơn
  • Câu 1:

    Quy tắc chung tốt để sử dụng cửa sổ ngữ cảnh là gì?

    GIẢI THÍCH:

    Mức 70% lý tưởng cân bằng giữa tính toàn diện và chất lượng. Dưới 30%, bạn có thể đang giữ lại thông tin hữu ích. Trên 90%, bạn có nguy cơ suy giảm chất lượng, hiệu ứng "mất tích giữa chừng" và để lại quá ít chỗ cho đầu ra. Ở mức 70%, bạn có đủ ngữ cảnh để AI hoạt động, cộng thêm khoảng trống cho một phản hồi đầy đủ và hợp lý.

  • Câu 2:

    Bạn đặt một hướng dẫn quan trọng ở giữa một tài liệu 50 trang và gửi nó cho AI. AI bỏ qua hướng dẫn của bạn. Tại sao?

    GIẢI THÍCH:

    Nghiên cứu từ Stanford và các phòng thí nghiệm khác đã xác nhận rằng những mô hình ngôn ngữ lớn (LLM) có đường cong chú ý hình chữ U. Chúng chú ý mạnh nhất đến phần đầu và phần cuối của cửa sổ ngữ cảnh. Các hướng dẫn quan trọng được đặt ở giữa một tài liệu dài có thể bị 'mất tích' một cách hiệu quả. Cách khắc phục: Đặt các hướng dẫn quan trọng nhất của bạn ở ngay đầu (prompt hệ thống) hoặc ngay cuối (thông báo cuối cùng cho người dùng). Các mô hình chú ý mạnh nhất đến phần đầu và phần cuối của ngữ cảnh, vì vậy thông tin bị chôn vùi ở giữa sẽ nhận được ít sự chú ý xử lý hơn

  • Câu 3:

    Một mô hình có cửa sổ ngữ cảnh 128.000 token. Bạn load 120.000 token tài liệu tham khảo cộng với một hướng dẫn 500 token. Điều gì có thể xảy ra?

    GIẢI THÍCH:

    Cửa sổ ngữ cảnh được chia sẻ giữa đầu vào và đầu ra. Với 120.000 token trên tổng số 128.000 token, AI có rất ít không gian để tạo ra phản hồi, và nghiên cứu cho thấy chất lượng giảm sút khi mức sử dụng tiến gần đến 100%. Quy tắc 70% đề xuất giữ tổng mức sử dụng khoảng 90.000 token cho cửa sổ 128.000 token, để lại không gian cho cả khả năng hiểu tốt và phản hồi đầy đủ.

Thứ Tư, 20/05/2026 15:12
51 👨 31
Xác thực tài khoản!

Theo Nghị định 147/2024/ND-CP, bạn cần xác thực tài khoản trước khi sử dụng tính năng này. Chúng tôi sẽ gửi mã xác thực qua SMS hoặc Zalo tới số điện thoại mà bạn nhập dưới đây:

Số điện thoại chưa đúng định dạng!
Số điện thoại này đã được xác thực!
Bạn có thể dùng Sđt này đăng nhập tại đây!
Lỗi gửi SMS, liên hệ Admin
0 Bình luận
Sắp xếp theo
    ❖ Kỹ thuật thiết kế Prompt