Cách tải miễn phí OpenAI GPT-OSS: Phiên bản ChatGPT có thể chạy offline trên laptop

Phạm Hải

Vào tháng 8 năm 2025, OpenAI đã lặng lẽ làm một điều mà họ chưa từng làm trong hơn 5 năm qua - cung cấp cho thế giới một mô hình GPT miễn phí, có thể tải xuống.

Được gọi là GPT-OSS, mô hình “mở” này có 2 tùy chọn - phiên bản nhẹ hơn 20B có thể chạy trên laptop hoặc máy chủ đám mây, và phiên bản mạnh mẽ 120B dành cho công việc cấp doanh nghiệp. Không giống như ChatGPT, GPT-OSS chạy hoàn toàn trên cơ sở hạ tầng của riêng bạn, giữ cho dữ liệu cá nhân được bảo mật trong khi cho phép bạn tùy chỉnh mô hình theo nhu cầu chính xác của mình.

Trong hướng dẫn này, bạn sẽ tìm hiểu chính xác cách tải xuống GPT-OSS, thiết lập và đưa nó vào hoạt động - cho dù bạn là nhà phát triển, công ty khởi nghiệp hay nhà lãnh đạo doanh nghiệp.

"Một trong những điều độc đáo về các mô hình mở là mọi người có thể chạy chúng cục bộ. Mọi người có thể chạy chúng phía sau tường lửa cá nhân, trên cơ sở hạ tầng của riêng họ", Greg Brockman, đồng sáng lập OpenAI, cho biết.

Mô hình AI trọng số mở là gì?

Mô hình trọng số mở là một mô hình ngôn ngữ lớn (LLM) mà các tham số đã được huấn luyện (“trọng số”) được công khai. Điều này cho phép bất kỳ ai cũng có thể:

Tải xuống mô hình
Chạy mô hình cục bộ hoặc trên cơ sở hạ tầng đám mây
Tinh chỉnh mô hình trên dữ liệu của riêng họ
Kiểm tra cách thức hoạt động bên trong

Điều này trái ngược với các mô hình đóng như ChatGPT hoặc Claude, nơi mô hình chạy trên máy chủ của nhà cung cấp và bạn chỉ truy cập được thông qua API (Application Programming Interface) bằng cách gửi dữ liệu của bạn đến một hộp đen.

GPT-OSS là gì?

GPT-OSS là dòng mô hình ngôn ngữ lớn, trọng số mở mới của OpenAI, được phát hành theo giấy phép Apache 2.0. Điều đó có nghĩa là bạn có thể chạy cục bộ, tùy chỉnh và sử dụng chúng cho mục đích thương mại.

Có hai phiên bản:

GPT-OSS-20B: Nhỏ gọn, hiệu quả (3,6 tỷ tham số hoạt động), có thể chạy trên laptop hiện đại với 16GB RAM.
GPT-OSS-120B: Một mô hình Mixture of Experts (tổng cộng 117 tỷ tham số, 4 chuyên gia hoạt động), được thiết kế cho GPU cao cấp (80GB+ VRAM).

Không giống như GPT-4 hoặc GPT-3.5, bạn không cần gửi bất kỳ dữ liệu nào đến OpenAI. Bạn có thể tải xuống các mô hình và chạy chúng phía sau tường lửa của mình.

Tại sao GPT-OSS khác biệt so với ChatGPT và GPT-4?

Mặc dù GPT-4 và ChatGPT rất mạnh mẽ, nhưng chúng bị khóa sau máy chủ của OpenAI và yêu cầu trả phí. GPT-OSS đã thay đổi cuộc chơi:

Tự host - GPT-OSS chạy trên cơ sở hạ tầng của bạn, không phải của OpenAI
Không có chi phí định kỳ - Bạn chỉ trả tiền một lần cho phần cứng/đám mây, không có phí trên mỗi token
Riêng tư & bảo mật - Các prompt và dữ liệu của bạn không bao giờ rời khỏi hệ thống của bạn

Đối với các công ty đang tìm kiếm một giải pháp thay thế GPT-4 với quyền kiểm soát hoàn toàn và không bị ràng buộc bởi nhà cung cấp, GPT-OSS là một ứng cử viên sáng giá.

Cách tải xuống GPT-OSS miễn phí

Bạn có thể tải xuống GPT-OSS trực tiếp từ các bản phát hành GitHub chính thức của OpenAI:

GPT-OSS 20B - Mô hình nhẹ hơn, chạy trên laptop có VRAM cao hoặc các phiên bản đám mây nhỏ
GPT-OSS 120B - Mô hình quy mô doanh nghiệp dành cho trung tâm dữ liệu hoặc GPU cao cấp

Các bước thực hiện như sau:

Truy cập kho lưu trữ GPT-OSS chính thức.
Xác minh checksum của mô hình để đảm bảo tính xác thực.
Tải xuống các file trọng số mô hình và bộ mã hóa.

Hướng dẫn cài đặt GPT-OSS - Chạy GPT cục bộ hoặc trên đám mây

Cho dù bạn muốn chạy GPT-OSS cục bộ hay trên máy chủ đám mây, quá trình cài đặt đều đơn giản:

Triển khai cục bộ (Windows/Mac/Linux)

Cài đặt Python và PyTorch
Tải xuống trọng số mô hình
Tải bằng một framework như Hugging Face Transformers

Triển khai trên đám mây (AWS, Azure, GCP)

Chọn một phiên bản GPU có đủ VRAM (ví dụ: A100, H100)
Cài đặt các dependency cần thiết
Triển khai phía sau API bảo mật để nhóm có thể truy cập

Điều này làm cho GPT-OSS trở thành một trong những mô hình AI tự host dễ dàng nhất vào năm 2025.

Cách cài đặt và chạy GPT-OSS cục bộ

Hướng dẫn này rất đơn giản và không mang tính kỹ thuật, vì vậy người không có kinh nghiệm lập trình cũng có thể làm theo để cài đặt và chạy GPT-OSS cục bộ.

1. Kiểm tra cấu hình máy tính của bạn

Đối với GPT-OSS 20B (phiên bản trung bình)

Hoạt động trên laptop/desktop cao cấp
Ví dụ: Apple M3 Max với 64 GB RAM
Yêu cầu khoảng 12 – 13 GB dung lượng lưu trữ

Đối với GPT-OSS 120B (phiên bản lớn)

Cần desktop với GPU NVIDIA cao cấp
Không phù hợp với hầu hết các laptop

Mẹo: Bắt đầu với 20B trừ khi bạn có PC hoặc máy trạm rất mạnh.

2. Chọn phương pháp cài đặt

Bạn có 3 cách để chạy GPT-OSS cục bộ.

Các tùy chọn dễ nhất là Ollama hoặc LM Studio (cả hai đều hoạt động trên Mac và Windows).

Tùy chọn A – Sử dụng Ollama (Được khuyến nghị vì tính dễ sử dụng)

Truy cập trang web của Ollama.
Tải xuống ứng dụng cho Mac, Windows hoặc Linux.
Cài đặt và mở ứng dụng Ollama - không cần lệnh terminal.
Trong menu drop-down của ứng dụng, tìm các phiên bản GPT-OSS (20B hoặc 120B).
Chọn GPT-OSS 20B cho hầu hết các hệ thống.
Nhập một message - Ollama sẽ tự động tải xuống mô hình khi bạn chạy lần đầu tiên.
Sau khi tải xuống, bạn có thể trò chuyện với GPT-OSS ngoại tuyến.

Thông tin bổ sung: Ollama có chức năng tìm kiếm trên web tùy chọn (yêu cầu tài khoản Ollama miễn phí). Tính năng này hiện tại có thể chậm vì mô hình mới được ra mắt.

Tùy chọn B – Sử dụng LM Studio

Truy cập trang web của LM Studio.
Tải xuống và cài đặt LM Studio cho hệ điều hành của bạn.
Mở LM Studio một lần trước khi sử dụng trình cài đặt dòng lệnh.
Mở Terminal (Mac) hoặc PowerShell (Windows).
Dán lệnh cài đặt được cung cấp trên trang tải xuống của LM Studio (khác nhau đối với Mac/Windows).
Sau khi mô hình được tải xuống, mở LM Studio và vào Discover → GPT-OSS.
Chọn mô hình và bắt đầu trò chuyện.

Tùy chọn C – Người dùng kỹ thuật

Tải xuống GPT-OSS trực tiếp từ Hugging Face.
Yêu cầu kiến thức về Python, PyTorch và lưu trữ mô hình.
Phù hợp cho các nhà phát triển muốn kiểm soát nhiều hơn.

3. Sử dụng GPT-OSS trên web (tùy chọn)

Bạn có thể thử GPT-OSS tại gptosss.com mà không cần cài đặt bất cứ thứ gì.
Chỉ cần nhập vào prompt và xem kết quả.

Lưu ý: Hiệu suất trên web chậm hơn so với chạy cục bộ do lưu lượng truy cập lớn.

4. Mẹo sử dụng nhanh

Lần chạy đầu tiên sẽ chậm hơn vì mô hình đang được tải xuống.
GPT-OSS có thể hiển thị hoặc ẩn lý do của nó - bạn có thể bật/tắt tùy chọn này trong cài đặt.
Phiên bản 20B nhanh hơn nhiều cho mục đích sử dụng thông thường; phiên bản 120B tốt hơn cho các tác vụ phức tạp nhưng cần phần cứng mạnh mẽ.

Vì sao GPT-OSS lại quan trọng (đối với doanh nghiệp, nhà phát triển và chính phủ)?

Lợi thế kinh doanh	Tại sao điều đó lại quan trọng
Bảo mật dữ liệu	Hãy giữ dữ liệu nhạy cảm trong nội bộ công ty, không sử dụng API, không lo rò rỉ thông tin
Kiểm soát chi phí	Không có phí trên mỗi token — sau khi tải xuống, bạn chỉ phải trả phí xử lý
Tùy chỉnh	Tinh chỉnh hoặc bổ sung kiến thức nội bộ để AI hiểu rõ sản phẩm, chính sách hoặc code của bạn
Tính linh hoạt	Tránh phụ thuộc vào nhà cung cấp, chạy mô hình trên hệ thống của bạn và thay thế các thành phần khi cần thiết.
Tính minh bạch	Kiểm toán hành vi của mô hình, hiểu rõ kết quả đầu ra và tuân thủ các quy định.

"Về lâu dài, mã nguồn mở sẽ tiết kiệm chi phí hơn... bởi vì bạn không phải trả thêm chi phí cho bản quyền sở hữu trí tuệ và phát triển." — Andrew Jardine, Hugging Face.

So sánh GPT-OSS với các mô hình trọng số mở khác

Mô hình	Nhà cung cấp	Kích thước tham số	Sức mạnh
Llama 2 / 3	Meta	7B–70B+	Độ chính xác thực tế cao, hỗ trợ đa ngôn ngữ, có các biến thể trò chuyện và code lập trình
GPT‑OSS	OpenAI	20B / 120B	Khả năng triển khai tại địa phương, chuyên môn về logic/lập trình.
DeepSeek R1	DeepSeek (Trung Quốc)	70B	Phương pháp đào tạo hiệu quả, giỏi toán/tư duy logic.
Falcon 2	TII (UAE)	40B+ đa phương thức	Hỗ trợ nhiều ngôn ngữ, nhập hình ảnh và văn bản.
BLOOM	Hugging Face + BigScience	176B	Quy trình đào tạo đa ngôn ngữ, minh bạch.
Mistral 7B	Mistral AI (Pháp)	7B	Hiệu năng đáng kinh ngạc so với kích thước.
StarCoder	Hugging Face + ServiceNow	15B	Tạo code, tăng năng suất lập trình.

So sánh hiệu năng: GPT-OSS hoạt động như thế nào?

Loại nhiệm vụ	Mô hình mở hàng đầu	Điểm số / Khả năng
🧠 Kiến thức tổng quát	Llama 2 70B	68.9 MMLU (gần với GPT-3.5).
🧮 Lý luận & Toán học	DeepSeek R1	Phù hợp với GPT-4 trong một số tác vụ nhất định.
🧑‍💻 Tạo code	GPT‑OSS‑120B	Vượt trội hơn GPT-4 Mini trên một số bài kiểm tra hiệu năng.
📚 Độ chính xác của bản tóm tắt	Llama 2 70B	Độ chính xác thực tế đạt 85% (tương đương với GPT-4 trong một số nghiên cứu).
🗣️ Nhiệm vụ đa ngôn ngữ	BLOOM, Llama, Falcon	Hỗ trợ hơn 46 ngôn ngữ.

Tóm lại, các mô hình mã nguồn mở đạt hoặc vượt trội hơn GPT-3.5. GPT-4 vẫn dẫn đầu trong các tác vụ siêu phức tạp, nhưng khoảng cách đang thu hẹp nhanh chóng.

Chủ Nhật, 17/05/2026 08:10

5 ★ 1 👨 332

Bạn nên đọc

Xác thực tài khoản!

Theo Nghị định 147/2024/ND-CP, bạn cần xác thực tài khoản trước khi sử dụng tính năng này. Chúng tôi sẽ gửi mã xác thực qua SMS hoặc Zalo tới số điện thoại mà bạn nhập dưới đây:

Số điện thoại chưa đúng định dạng!

0 Bình luận

Sắp xếp theo

Xóa Đăng nhập để Gửi

ChatGPT

Cũ vẫn chất

Xem thêm

Giấy phép số 362/GP-BTTTT. Bộ Thông tin và Truyền thông cấp ngày 30/06/2016. Cơ quan chủ quản: CÔNG TY CỔ PHẦN MẠNG TRỰC TUYẾN META. Địa chỉ: 56 Duy Tân, Phường Cầu Giấy, Hà Nội. Điện thoại: 024 2242 6188. Email: info@meta.vn. Chịu trách nhiệm nội dung: Lê Ngọc Lam.

Cách tải miễn phí OpenAI GPT-OSS: Phiên bản ChatGPT có thể chạy offline trên laptop

Phạm Hải

Mô hình AI trọng số mở là gì?

GPT-OSS là gì?

Tại sao GPT-OSS khác biệt so với ChatGPT và GPT-4?

Cách tải xuống GPT-OSS miễn phí

Hướng dẫn cài đặt GPT-OSS - Chạy GPT cục bộ hoặc trên đám mây

Triển khai cục bộ (Windows/Mac/Linux)

Triển khai trên đám mây (AWS, Azure, GCP)

Cách cài đặt và chạy GPT-OSS cục bộ

1. Kiểm tra cấu hình máy tính của bạn

2. Chọn phương pháp cài đặt

3. Sử dụng GPT-OSS trên web (tùy chọn)

4. Mẹo sử dụng nhanh

Vì sao GPT-OSS lại quan trọng (đối với doanh nghiệp, nhà phát triển và chính phủ)?

So sánh GPT-OSS với các mô hình trọng số mở khác

So sánh hiệu năng: GPT-OSS hoạt động như thế nào?

Bạn nên đọc

Hướng dẫn xem nhân tướng học bằng ChatGPT

Hướng dẫn tạo ảnh tốt nghiệp mầm non trên ChatGPT

Hướng dẫn tạo ảnh Magnet, ảnh nam châm tủ lạnh với AI

Hướng dẫn ngắt kết nối ứng dụng trên ChatGPT

Hướng dẫn dùng thư viện quản lý tập tin trên ChatGPT

Cũ vẫn chất

Cách điều chỉnh kích thước ô trong bảng Word bằng nhau

5201314 là gì? 20215201314 là gì?

5 cách lấy kim cương miễn phí trong Free Fire

Lời chúc Tết Đoan ngọ mùng 5/5 âm lịch, thơ hay về Tết Đoan Ngọ

Cách đổi mật khẩu truy cập Ultraviewer

Cách dùng biểu tượng cảm xúc trong Đấu Trường Chân Lý

Đi thi THPT quốc gia mặc gì?

Cách bật NFC trên iPhone dễ, nhanh nhất

Những hình ảnh động chúc mừng sinh nhật thêm ý nghĩa

Code Sự tiến hóa tối thượng: Saiyan mới nhất và cách nhập code