Cách tải miễn phí OpenAI GPT-OSS: Phiên bản ChatGPT có thể chạy offline trên laptop

Vào tháng 8 năm 2025, OpenAI đã lặng lẽ làm một điều mà họ chưa từng làm trong hơn 5 năm qua - cung cấp cho thế giới một mô hình GPT miễn phí, có thể tải xuống.

Được gọi là GPT-OSS, mô hình “mở” này có 2 tùy chọn - phiên bản nhẹ hơn 20B có thể chạy trên laptop hoặc máy chủ đám mây, và phiên bản mạnh mẽ 120B dành cho công việc cấp doanh nghiệp. Không giống như ChatGPT, GPT-OSS chạy hoàn toàn trên cơ sở hạ tầng của riêng bạn, giữ cho dữ liệu cá nhân được bảo mật trong khi cho phép bạn tùy chỉnh mô hình theo nhu cầu chính xác của mình.

Trong hướng dẫn này, bạn sẽ tìm hiểu chính xác cách tải xuống GPT-OSS, thiết lập và đưa nó vào hoạt động - cho dù bạn là nhà phát triển, công ty khởi nghiệp hay nhà lãnh đạo doanh nghiệp.

"Một trong những điều độc đáo về các mô hình mở là mọi người có thể chạy chúng cục bộ. Mọi người có thể chạy chúng phía sau tường lửa cá nhân, trên cơ sở hạ tầng của riêng họ", Greg Brockman, đồng sáng lập OpenAI, cho biết.

Mô hình AI trọng số mở là gì?

Mô hình trọng số mở là một mô hình ngôn ngữ lớn (LLM) mà các tham số đã được huấn luyện (“trọng số”) được công khai. Điều này cho phép bất kỳ ai cũng có thể:

  • Tải xuống mô hình
  • Chạy mô hình cục bộ hoặc trên cơ sở hạ tầng đám mây
  • Tinh chỉnh mô hình trên dữ liệu của riêng họ
  • Kiểm tra cách thức hoạt động bên trong

Điều này trái ngược với các mô hình đóng như ChatGPT hoặc Claude, nơi mô hình chạy trên máy chủ của nhà cung cấp và bạn chỉ truy cập được thông qua API (Application Programming Interface) bằng cách gửi dữ liệu của bạn đến một hộp đen.

GPT-OSS là gì?

GPT-OSS là dòng mô hình ngôn ngữ lớn, trọng số mở mới của OpenAI, được phát hành theo giấy phép Apache 2.0. Điều đó có nghĩa là bạn có thể chạy cục bộ, tùy chỉnh và sử dụng chúng cho mục đích thương mại.

Có hai phiên bản:

  • GPT-OSS-20B: Nhỏ gọn, hiệu quả (3,6 tỷ tham số hoạt động), có thể chạy trên laptop hiện đại với 16GB RAM.
  • GPT-OSS-120B: Một mô hình Mixture of Experts (tổng cộng 117 tỷ tham số, 4 chuyên gia hoạt động), được thiết kế cho GPU cao cấp (80GB+ VRAM).

Không giống như GPT-4 hoặc GPT-3.5, bạn không cần gửi bất kỳ dữ liệu nào đến OpenAI. Bạn có thể tải xuống các mô hình và chạy chúng phía sau tường lửa của mình.

Tại sao GPT-OSS khác biệt so với ChatGPT và GPT-4?

Mặc dù GPT-4 và ChatGPT rất mạnh mẽ, nhưng chúng bị khóa sau máy chủ của OpenAI và yêu cầu trả phí. GPT-OSS đã thay đổi cuộc chơi:

  • Tự host - GPT-OSS chạy trên cơ sở hạ tầng của bạn, không phải của OpenAI
  • Không có chi phí định kỳ - Bạn chỉ trả tiền một lần cho phần cứng/đám mây, không có phí trên mỗi token
  • Riêng tư & bảo mật - Các prompt và dữ liệu của bạn không bao giờ rời khỏi hệ thống của bạn

Đối với các công ty đang tìm kiếm một giải pháp thay thế GPT-4 với quyền kiểm soát hoàn toàn và không bị ràng buộc bởi nhà cung cấp, GPT-OSS là một ứng cử viên sáng giá.

Cách tải xuống GPT-OSS miễn phí

Bạn có thể tải xuống GPT-OSS trực tiếp từ các bản phát hành GitHub chính thức của OpenAI:

  • GPT-OSS 20B - Mô hình nhẹ hơn, chạy trên laptop có VRAM cao hoặc các phiên bản đám mây nhỏ
  • GPT-OSS 120B - Mô hình quy mô doanh nghiệp dành cho trung tâm dữ liệu hoặc GPU cao cấp

Các bước thực hiện như sau:

  1. Truy cập kho lưu trữ GPT-OSS chính thức.
  2. Xác minh checksum của mô hình để đảm bảo tính xác thực.
  3. Tải xuống các file trọng số mô hình và bộ mã hóa.

Hướng dẫn cài đặt GPT-OSS - Chạy GPT cục bộ hoặc trên đám mây

Cho dù bạn muốn chạy GPT-OSS cục bộ hay trên máy chủ đám mây, quá trình cài đặt đều đơn giản:

Triển khai cục bộ (Windows/Mac/Linux)

Triển khai trên đám mây (AWS, Azure, GCP)

  • Chọn một phiên bản GPU có đủ VRAM (ví dụ: A100, H100)
  • Cài đặt các dependency cần thiết
  • Triển khai phía sau API bảo mật để nhóm có thể truy cập

Điều này làm cho GPT-OSS trở thành một trong những mô hình AI tự host dễ dàng nhất vào năm 2025.

Cách cài đặt và chạy GPT-OSS cục bộ

Hướng dẫn này rất đơn giản và không mang tính kỹ thuật, vì vậy người không có kinh nghiệm lập trình cũng có thể làm theo để cài đặt và chạy GPT-OSS cục bộ.

1. Kiểm tra cấu hình máy tính của bạn

Đối với GPT-OSS 20B (phiên bản trung bình)

  • Hoạt động trên laptop/desktop cao cấp
  • Ví dụ: Apple M3 Max với 64 GB RAM
  • Yêu cầu khoảng 12 – 13 GB dung lượng lưu trữ

Đối với GPT-OSS 120B (phiên bản lớn)

  • Cần desktop với GPU NVIDIA cao cấp
  • Không phù hợp với hầu hết các laptop

Mẹo: Bắt đầu với 20B trừ khi bạn có PC hoặc máy trạm rất mạnh.

2. Chọn phương pháp cài đặt

Bạn có 3 cách để chạy GPT-OSS cục bộ.

Các tùy chọn dễ nhất là Ollama hoặc LM Studio (cả hai đều hoạt động trên Mac và Windows).

Tùy chọn A – Sử dụng Ollama (Được khuyến nghị vì tính dễ sử dụng)

  • Truy cập trang web của Ollama.
  • Tải xuống ứng dụng cho Mac, Windows hoặc Linux.
  • Cài đặt và mở ứng dụng Ollama - không cần lệnh terminal.
  • Trong menu drop-down của ứng dụng, tìm các phiên bản GPT-OSS (20B hoặc 120B).
  • Chọn GPT-OSS 20B cho hầu hết các hệ thống.
  • Nhập một message - Ollama sẽ tự động tải xuống mô hình khi bạn chạy lần đầu tiên.
  • Sau khi tải xuống, bạn có thể trò chuyện với GPT-OSS ngoại tuyến.

Thông tin bổ sung: Ollama có chức năng tìm kiếm trên web tùy chọn (yêu cầu tài khoản Ollama miễn phí). Tính năng này hiện tại có thể chậm vì mô hình mới được ra mắt.

Tùy chọn B – Sử dụng LM Studio

  • Truy cập trang web của LM Studio.
  • Tải xuống và cài đặt LM Studio cho hệ điều hành của bạn.
  • Mở LM Studio một lần trước khi sử dụng trình cài đặt dòng lệnh.
  • Mở Terminal (Mac) hoặc PowerShell (Windows).
  • Dán lệnh cài đặt được cung cấp trên trang tải xuống của LM Studio (khác nhau đối với Mac/Windows).
  • Sau khi mô hình được tải xuống, mở LM Studio và vào Discover → GPT-OSS.
  • Chọn mô hình và bắt đầu trò chuyện.

Tùy chọn C – Người dùng kỹ thuật

  • Tải xuống GPT-OSS trực tiếp từ Hugging Face.
  • Yêu cầu kiến ​​thức về Python, PyTorch và lưu trữ mô hình.
  • Phù hợp cho các nhà phát triển muốn kiểm soát nhiều hơn.

3. Sử dụng GPT-OSS trên web (tùy chọn)

  • Bạn có thể thử GPT-OSS tại gptosss.com mà không cần cài đặt bất cứ thứ gì.
  • Chỉ cần nhập vào prompt và xem kết quả.

Lưu ý: Hiệu suất trên web chậm hơn so với chạy cục bộ do lưu lượng truy cập lớn.

4. Mẹo sử dụng nhanh

  • Lần chạy đầu tiên sẽ chậm hơn vì mô hình đang được tải xuống.
  • GPT-OSS có thể hiển thị hoặc ẩn lý do của nó - bạn có thể bật/tắt tùy chọn này trong cài đặt.
  • Phiên bản 20B nhanh hơn nhiều cho mục đích sử dụng thông thường; phiên bản 120B tốt hơn cho các tác vụ phức tạp nhưng cần phần cứng mạnh mẽ.

Vì sao GPT-OSS lại quan trọng (đối với doanh nghiệp, nhà phát triển và chính phủ)?

Lợi thế kinh doanhTại sao điều đó lại quan trọng
Bảo mật dữ liệuHãy giữ dữ liệu nhạy cảm trong nội bộ công ty, không sử dụng API, không lo rò rỉ thông tin
Kiểm soát chi phíKhông có phí trên mỗi token — sau khi tải xuống, bạn chỉ phải trả phí xử lý
Tùy chỉnhTinh chỉnh hoặc bổ sung kiến ​​thức nội bộ để AI hiểu rõ sản phẩm, chính sách hoặc code của bạn
Tính linh hoạtTránh phụ thuộc vào nhà cung cấp, chạy mô hình trên hệ thống của bạn và thay thế các thành phần khi cần thiết.
Tính minh bạchKiểm toán hành vi của mô hình, hiểu rõ kết quả đầu ra và tuân thủ các quy định.

"Về lâu dài, mã nguồn mở sẽ tiết kiệm chi phí hơn... bởi vì bạn không phải trả thêm chi phí cho bản quyền sở hữu trí tuệ và phát triển." — Andrew Jardine, Hugging Face.

So sánh GPT-OSS với các mô hình trọng số mở khác

Mô hìnhNhà cung cấpKích thước tham sốSức mạnh
Llama 2 / 3Meta7B–70B+Độ chính xác thực tế cao, hỗ trợ đa ngôn ngữ, có các biến thể trò chuyện và code lập trình
GPT‑OSSOpenAI20B / 120BKhả năng triển khai tại địa phương, chuyên môn về logic/lập trình.
DeepSeek R1DeepSeek (Trung Quốc)70BPhương pháp đào tạo hiệu quả, giỏi toán/tư duy logic.
Falcon 2TII (UAE)40B+ đa phương thứcHỗ trợ nhiều ngôn ngữ, nhập hình ảnh và văn bản.
BLOOMHugging Face + BigScience176BQuy trình đào tạo đa ngôn ngữ, minh bạch.
Mistral 7BMistral AI (Pháp)7BHiệu năng đáng kinh ngạc so với kích thước.
StarCoderHugging Face + ServiceNow15BTạo code, tăng năng suất lập trình.

So sánh hiệu năng: GPT-OSS hoạt động như thế nào?

Loại nhiệm vụMô hình mở hàng đầuĐiểm số / Khả năng
🧠 Kiến thức tổng quátLlama 2 70B68.9 MMLU (gần với GPT-3.5).
🧮 Lý luận & Toán họcDeepSeek R1Phù hợp với GPT-4 trong một số tác vụ nhất định.
🧑‍💻 Tạo codeGPT‑OSS‑120BVượt trội hơn GPT-4 Mini trên một số bài kiểm tra hiệu năng.
📚 Độ chính xác của bản tóm tắtLlama 2 70BĐộ chính xác thực tế đạt 85% (tương đương với GPT-4 trong một số nghiên cứu).
🗣️ Nhiệm vụ đa ngôn ngữBLOOM, Llama, FalconHỗ trợ hơn 46 ngôn ngữ.

Tóm lại, các mô hình mã nguồn mở đạt hoặc vượt trội hơn GPT-3.5. GPT-4 vẫn dẫn đầu trong các tác vụ siêu phức tạp, nhưng khoảng cách đang thu hẹp nhanh chóng.

Chủ Nhật, 17/05/2026 08:10
51 👨 332
Xác thực tài khoản!

Theo Nghị định 147/2024/ND-CP, bạn cần xác thực tài khoản trước khi sử dụng tính năng này. Chúng tôi sẽ gửi mã xác thực qua SMS hoặc Zalo tới số điện thoại mà bạn nhập dưới đây:

Số điện thoại chưa đúng định dạng!
Số điện thoại này đã được xác thực!
Bạn có thể dùng Sđt này đăng nhập tại đây!
Lỗi gửi SMS, liên hệ Admin
0 Bình luận
Sắp xếp theo
    ❖ ChatGPT