2025年8月5日,Hugging Face官方博客宣布了一个重磅消息:OpenAI推出了全新开放模型家族GPT OSS。这一系列模型面向强推理、智能体任务及多样化开发场景,旨在推动开源生态发展,让人工智能惠及更广泛的人群。
一、GPT OSS模型核心信息
【官方demo体验地址】https://gpt-oss.com/
【发布说明-中文版】https://openai.com/zh-Hans-CN/index/introducing-gpt-oss/
【发布说明-英文版】https://openai.com/index/introducing-gpt-oss/
【官网】https://openai.com/open-models/
【代码】https://github.com/openai/gpt-oss
【模型120b】https://huggingface.co/openai/gpt-oss-120b
【模型20b】https://huggingface.co/openai/gpt-oss-20b/tree/main
GPT OSS系列包含两款模型,核心参数与特点如下:
gpt-oss-120b:1170亿参数,活跃参数51亿,采用4-bit MXFP4量化方案(仅应用于MoE权重),可部署于单张H100 GPU(80GB显存)。
gpt-oss-20b:210亿参数,活跃参数36亿,同样支持MXFP4量化,仅需16GB显存即可运行,适合消费级硬件和端侧应用。
两款模型均采用Mixture-of-Experts(MoE)架构,具备三大核心能力:
内置链式思维(Chain-of-Thought),可调节推理强度;
支持指令跟随与工具调用,适配生成式AI和智能体工作流;
兼容多种推理工具(Transformers、vLLM、Llama.cpp等)。
值得关注的是,模型采用Apache 2.0许可证,附带精简使用政策——仅要求遵守适用法律,确保安全、负责且民主地使用,最大化开发者对使用方式的控制权。
二、性能评估
- openai模型评估
我们对 gpt-oss-120b 和 gpt-oss-20b 在标准学术基准测试中进行了评估,以衡量其在编程、竞赛数学、医疗和智能体工具使用方面的能力,并与其他 OpenAI 推理模型(包括 o3、o3‑mini 和 o4-mini)进行了比较。
Gpt-oss-120b 在竞赛编程 (Codeforces)、通用问题解决 (MMLU 和 HLE) 以及工具调用 (TauBench) 方面表现优于 OpenAI o3‑mini,并与 OpenAI o4-mini 持平或超越其性能。此外,它在健康相关查询 (HealthBench) 和竞赛数学 (AIME 2024 和 2025) 方面表现得比 o4-mini 更好。尽管 gpt-oss-20b 的规模较小,但在这些相同的评估中,它与 OpenAI o3‑mini 持平或超越后者,甚至在竞赛数学和医疗方面表现得更好。详细对比如下图:
- 与其它模型对比
来源:https://x.com/hud_evals/status/1952846781286658393
三、架构细节:兼顾性能与效率的设计
来源:https://x.com/rasbt/status/1952842273848279364
Token-choiceMoE:激活函数采用SwiGLU,选出Top-k专家后对其权重执行softmax(softmax-after-topk);
注意力机制:使用RoPE相对位置编码,最长支持128K Token;交替采用“全局上下文”与“滑动128 Token窗口”机制,每个注意力头引入learned attention sink(增强长上下文稳定性);
分词器:与GPT-4o等OpenAI API模型共用,并新增Token兼容Responses API。
四、推理方式:灵活适配不同场景
无论是通过云端API调用,还是本地部署,GPT OSS都提供了便捷的实现路径。
1. 通过推理提供商调用API
GPT OSS已接入Hugging Face的Inference Providers服务,支持AWS、Cerebras、Fireworks AI等多家提供商。开发者可通过统一的Python/JavaScript SDK快速调用,兼容OpenAI风格的Chat Completions API和Responses API(目前最先进的聊天模型接口)。
示例(Python + Cerebras):
from openai import OpenAIclient = OpenAI(inference_provider="cerebras",api_key="YOUR_HF_API_KEY")response = client.chat.completions.create(model="openai/gpt-oss-120b",messages=[{"role": "user", "content": "用中文解释MXFP4量化是什么?"}],)print(response.choices[0].message.content)
2. 本地推理:支持多种工具与硬件优化
(1)使用Transformers
需安装最新版transformers(≥v4.55)及相关依赖,支持MXFP4量化(需Hopper/Blackwell GPU)、Flash Attention 3(提升速度)等优化。
示例(20B模型推理):
from transformers import AutoModelForCausalLM, AutoTokenizermodel_id = "openai/gpt-oss-20b"tokenizer = AutoTokenizer.from_pretrained(model_id)model = AutoModelForCausalLM.from_pretrained(model_id, device_map="auto", torch_dtype="auto")messages = [{"role": "user", "content": "strawberry中有几个r?"}]inputs = tokenizer.apply_chat_template(messages, return_tensors="pt").to(model.device)generated = model.generate(**inputs, max_new_tokens=100)print(tokenizer.decode(generated[0][inputs["input_ids"].shape[-1]:]))(2)其他工具支持
2. 本地推理:支持多种工具与硬件优化
Llama.cpp:原生支持MXFP4和Flash Attention,适配Metal、CUDA等后端,可通过
llama-server快速启动;vLLM:支持sink attention与Flash Attention 3,适合Hopper GPU,可通过
vllm serve命令部署;transformers serve:无需额外依赖,本地快速启动服务,支持Responses API和Completions API。
3. 硬件优化配置推荐
不同硬件适配的优化方案不同,下表可作为参考:
五、微调与部署:适配个性化需求
1. 微调支持
GPT OSS全面集成trl库,提供基于SFTTrainer的示例脚本,支持LoRA等微调方式(如多语言推理切换)。微调时需注意:仅保留最新一段思维链,对标签进行掩码(仅解除最后一条assistant消息的掩码)。
2. 部署至合作伙伴平台
Azure:模型已入驻Azure AI Model Catalog,可直接部署至在线端点,借助Azure的企业级基础设施实现自动扩缩与监控;
Dell:通过Dell Enterprise Hub部署,支持XE9680、XE8640等搭载H100/H200的平台,提供优化容器与原生硬件支持。
六、聊天模板与工具使用:提升交互灵活性
1. 聊天模板设计
模型引入“channels”概念,输出包含“analysis(推理链)”和“final(最终答案)”两个渠道,通常只需保留“final”部分。训练时可通过“thinking”字段加入思维链,确保模型学习推理过程。
2. 工具调用能力
支持两类工具:内置的browser和python,以及用户自定义工具(通过JSON Schema或Python函数定义)。调用时需将工具信息传入聊天模板,模型会自动决定是否调用并返回结果。
示例(调用天气查询工具):
def get_current_weather(location: str):"""返回指定地点的当前天气状况"""return "晴,25℃" # 示例返回chat = [{"role": "user", "content": "巴黎现在的天气如何?"}]inputs = tokenizer.apply_chat_template(chat, tools=[get_current_weather], add_generation_prompt=True, return_tensors="pt")
七、总结:开源生态的重要一步
OpenAI表示,GPT OSS的发布是其履行“让人工智能惠及全人类”使命的关键举措,尤其满足了私有部署、本地推理等场景需求。Hugging Face则认为,这一模型将成为开源社区的旗舰产品,推动AI技术在更多领域的创新应用。
无论是开发者、企业还是研究人员,都可通过Hugging Face平台快速体验GPT OSS,探索其在强推理、智能体任务中的潜力。未来,随着生态的完善,这一系列模型或将成为开源AI领域的重要基石。

