Trong vài năm qua, phần lớn sự chú ý của ngành AI thường đổ dồn vào các large language model (LLM) với hàng trăm tỷ tham số. Tuy nhiên, song song với cuộc đua “model càng lớn càng mạnh”, một xu hướng khác đang phát triển rất nhanh là small language model (SLM).
Các mô hình ngôn ngữ nhỏ hiện không còn chỉ là phiên bản “rút gọn” của LLM nữa. Chúng đang trở nên nhanh hơn, thông minh hơn và đặc biệt hiệu quả hơn rất nhiều về chi phí tính toán, bộ nhớ cũng như điện năng tiêu thụ.
Điều thú vị là nhờ sự hỗ trợ từ các mô hình lớn, cộng đồng AI hiện có thể dùng LLM để tạo synthetic dataset rồi tiếp tục fine-tune các SLM cho những nhiệm vụ cụ thể. Kết quả là nhiều mô hình nhỏ ngày nay có khả năng reasoning, coding hoặc xử lý ngôn ngữ tốt hơn rất nhiều so với kích thước thực tế của chúng.
Điều này mở ra một hướng đi cực kỳ quan trọng: AI không còn bắt buộc phải chạy trên cloud với GPU khổng lồ nữa. Các SLM hiện đại đã bắt đầu đủ nhỏ để chạy trực tiếp trên laptop, điện thoại hoặc edge device, giúp tăng tốc độ phản hồi, cải thiện tính riêng tư và giảm phụ thuộc vào internet liên tục.
Dưới đây là những small language model đang được đánh giá nổi bật nhất hiện nay.
Gemma 3 270M: Mô hình ai siêu nhẹ của Google
Gemma 3 270M là phiên bản nhỏ nhất trong họ Gemma 3 của Google. Với chỉ khoảng 270 triệu tham số, đây là một trong những mô hình ngôn ngữ nhẹ nhất nhưng vẫn đủ khả năng xử lý các tác vụ AI cơ bản.
Điểm đáng chú ý là dù cực kỳ nhỏ gọn, Gemma 3 270M vẫn hỗ trợ context window lên tới 32K token. Điều này cho phép model xử lý đoạn văn dài, tóm tắt nội dung, trả lời câu hỏi hoặc thực hiện reasoning cơ bản mà không cần phần cứng quá mạnh.
Nhờ kích thước nhỏ, model này đặc biệt phù hợp cho nghiên cứu, prototyping hoặc các ứng dụng AI chạy local trên thiết bị cấu hình thấp. Trong bối cảnh ngày càng nhiều người muốn chạy AI offline thay vì phụ thuộc cloud, các model ultra-lightweight như Gemma 270M đang trở nên rất hấp dẫn.
Qwen3-0.6B: Small model nhưng có “thinking mode”
Qwen3-0.6B là phiên bản nhỏ nhất trong dòng Qwen3 của Alibaba Cloud với khoảng 600 triệu tham số.
Điểm đặc biệt của model này nằm ở khả năng chuyển đổi giữa “thinking mode” cho reasoning, toán học và coding, cùng “non-thinking mode” dành cho hội thoại tốc độ cao.
Đây là hướng đi khá thú vị vì nhiều AI company hiện đang cố gắng cân bằng giữa tốc độ phản hồi và khả năng suy luận sâu. Ngoài ra, Qwen3-0.6B còn hỗ trợ hơn 100 ngôn ngữ cùng context length 32K token, khiến nó trở thành một trong những small model đa dụng nhất hiện nay.
Với nhiều developer muốn xây chatbot hoặc AI assistant chạy local nhưng vẫn đủ thông minh để xử lý task phức tạp, Qwen3-0.6B đang là lựa chọn khá đáng chú ý.
SmolLM3-3B: Small model hướng tới Agentic AI
SmolLM3-3B là một trong những open model đang được cộng đồng AI đánh giá rất cao ở phân khúc 3B parameter.
Điểm nổi bật nhất của SmolLM3 nằm ở khả năng dual-mode reasoning. Người dùng có thể chuyển giữa chế độ “thinking mode” cho bài toán phức tạp và chế độ lightweight để chat hoặc xử lý task thông thường nhanh hơn.
Ngoài text generation, model này còn hỗ trợ tool calling, agentic workflow và reasoning đa bước. Điều này khiến SmolLM3 không còn chỉ là chatbot đơn thuần mà bắt đầu tiến gần hơn tới mô hình AI agent thực thụ.
Một điểm rất được cộng đồng research đánh giá cao là tính open-source minh bạch với public training detail, open weight và checkpoint đầy đủ. Nhờ đó, developer có thể fine-tune hoặc build hệ thống AI chuyên biệt dễ dàng hơn rất nhiều.
Qwen3-4B-Instruct-2507: Tối Ưu Cho Tốc Độ Và Instruction Following
Qwen3-4B-Instruct-2507 là phiên bản instruction-tuned mới của Qwen3-4B với trọng tâm chính là tăng hiệu suất ở “non-thinking mode”.
Khác với nhiều model reasoning-heavy hiện nay, Qwen3-4B-Instruct được tối ưu để phản hồi nhanh, ít reasoning token hơn nhưng vẫn giữ khả năng hiểu instruction rất tốt.
Model này được cải thiện khá mạnh ở text comprehension, coding, mathematics, reasoning và multilingual knowledge. Ngoài ra, hệ thống alignment cũng được tinh chỉnh để phù hợp hơn với preference của người dùng trong các tác vụ mở như creative writing, dialogue hoặc subjective reasoning.
Điều này khiến model trở thành lựa chọn khá cân bằng giữa tốc độ, độ thông minh và chi phí compute.
Gemma 3 4B: Small multimodal model đáng chú ý nhất của Google
Gemma 3 4B hiện là một trong những multimodal small model nổi bật nhất của Google.
Khác với phiên bản 270M siêu nhẹ, Gemma 3 4B được thiết kế để xử lý cả văn bản lẫn hình ảnh trong cùng một model.
Với context window lên tới 128K token, model này phù hợp cho question answering, summarization, reasoning và image understanding. Một điểm đáng chú ý khác là Gemma 3 4B đang được dùng khá nhiều cho fine-tuning chuyên biệt như text classification, image classification hoặc domain-specific task.
Điều này cho thấy xu hướng mới của AI: thay vì chỉ tạo “general model”, nhiều công ty đang tập trung fine-tune SLM cho các tác vụ rất cụ thể để tăng hiệu quả thực tế.
Jan-v1-4B: AI Agent model tối ưu cho local workflow
Jan-v1-4B là model đầu tiên trong Jan Family, được xây dựng riêng cho agentic reasoning và problem-solving trong hệ sinh thái Jan App.
Model này dựa trên kiến trúc Qwen3-4B-thinking nhưng được fine-tune mạnh hơn cho reasoning, tool usage và AI agent workflow.
Theo benchmark SimpleQA, Jan-v1 đạt khoảng 91.1% accuracy — con số khá ấn tượng với model ở kích thước này.
Một điểm rất đáng chú ý là Jan-v1 được tối ưu mạnh cho local deployment thông qua Jan app, vLLM và llama.cpp. Điều này khiến nó trở thành lựa chọn hấp dẫn cho developer muốn chạy AI local hoặc xây privacy-focused workflow.
Phi-4-mini-instruct: Small model mạnh nhất của Microsoft?
Phi-4-mini-instruct là mô hình 3.8B parameter thuộc dòng Phi-4 của Microsoft.
Điểm mạnh lớn nhất của model này nằm ở khả năng reasoning hiệu quả dù kích thước khá nhỏ.
Microsoft cho biết model được huấn luyện trên dữ liệu web chất lượng cao, synthetic reasoning dataset dạng “textbook” và supervised instruction data được curate kỹ.
Phi-4-mini-instruct hỗ trợ context length 128K token và hoạt động khá tốt ở các tác vụ toán học, logic, coding và multilingual task. Ngoài ra, model còn hỗ trợ function calling, hơn 20 ngôn ngữ và khả năng deploy linh hoạt qua vLLM hoặc Transformers.
Điều này giúp Phi-4-mini trở thành một trong những small model đa dụng nhất hiện nay.
Vì Sao Small Language model đang ngày càng quan trọng?
Trong nhiều năm, ngành AI gần như bị ám ảnh bởi cuộc đua “model càng lớn càng tốt”.
Nhưng thực tế đang cho thấy rất nhiều ứng dụng không cần tới mô hình hàng trăm tỷ tham số. Với chatbot doanh nghiệp, AI local, edge AI hoặc automation workflow, small language model thường mang lại hiệu quả thực tế tốt hơn nhiều nhờ tốc độ cao, chi phí thấp, latency thấp và khả năng deploy dễ dàng hơn.
Ngoài ra, xu hướng fine-tuning bằng synthetic data cũng đang giúp các SLM trở nên thông minh hơn nhanh hơn nhiều người dự đoán. Điều này khiến khoảng cách giữa small model và large model bắt đầu thu hẹp ở khá nhiều use case thực tế.
Sự phát triển của small language model đang cho thấy một hướng đi rất khác của ngành AI: không phải lúc nào “lớn hơn” cũng đồng nghĩa với “tốt hơn”.
Từ Gemma 3 siêu nhẹ, Qwen3 đa ngôn ngữ, SmolLM3 hỗ trợ agentic workflow cho tới Phi-4-mini của Microsoft, các SLM hiện đại đang chứng minh rằng AI mạnh mẽ hoàn toàn có thể chạy trên phần cứng nhỏ gọn hơn rất nhiều.
Trong tương lai gần, rất có thể phần lớn AI mà người dùng tương tác hàng ngày sẽ không còn nằm hoàn toàn trên cloud nữa, mà sẽ dần chuyển xuống laptop, điện thoại, edge device và các hệ thống AI local. Và đó có thể mới là giai đoạn bùng nổ thật sự của AI phổ thông.
Hướng dẫn AI
Học IT
Hàm Excel