OpenAI 扔下 “王炸”：GPT OSS 开源模型家族，重新定义 AI 开发门槛- 大数跨境

首页

OpenAI 扔下 “王炸”：GPT OSS 开源模型家族，重新定义 AI 开发门槛

洞见畏来

2025-08-07

导读：OpenAI 扔下 “王炸”：GPT OSS 开源模型家族，重新定义 AI 开发门槛

2025年8月5日，Hugging Face官方博客宣布了一个重磅消息：OpenAI推出了全新开放模型家族GPT OSS。这一系列模型面向强推理、智能体任务及多样化开发场景，旨在推动开源生态发展，让人工智能惠及更广泛的人群。

一、GPT OSS模型核心信息

【官方demo体验地址】https://gpt-oss.com/
【发布说明-中文版】https://openai.com/zh-Hans-CN/index/introducing-gpt-oss/
【发布说明-英文版】https://openai.com/index/introducing-gpt-oss/
【官网】https://openai.com/open-models/
【代码】https://github.com/openai/gpt-oss
【模型120b】https://huggingface.co/openai/gpt-oss-120b
【模型20b】https://huggingface.co/openai/gpt-oss-20b/tree/main

GPT OSS系列包含两款模型，核心参数与特点如下：

gpt-oss-120b：1170亿参数，活跃参数51亿，采用4-bit MXFP4量化方案（仅应用于MoE权重），可部署于单张H100 GPU（80GB显存）。
gpt-oss-20b：210亿参数，活跃参数36亿，同样支持MXFP4量化，仅需16GB显存即可运行，适合消费级硬件和端侧应用。

两款模型均采用Mixture-of-Experts（MoE）架构，具备三大核心能力：

内置链式思维（Chain-of-Thought），可调节推理强度；
支持指令跟随与工具调用，适配生成式AI和智能体工作流；
兼容多种推理工具（Transformers、vLLM、Llama.cpp等）。

值得关注的是，模型采用Apache 2.0许可证，附带精简使用政策——仅要求遵守适用法律，确保安全、负责且民主地使用，最大化开发者对使用方式的控制权。

二、性能评估

openai模型评估

我们对 gpt-oss-120b 和 gpt-oss-20b 在标准学术基准测试中进行了评估，以衡量其在编程、竞赛数学、医疗和智能体工具使用方面的能力，并与其他 OpenAI 推理模型（包括 o3、o3‑mini 和 o4-mini）进行了比较。
Gpt-oss-120b 在竞赛编程 (Codeforces)、通用问题解决 (MMLU 和 HLE) 以及工具调用 (TauBench) 方面表现优于 OpenAI o3‑mini，并与 OpenAI o4-mini 持平或超越其性能。此外，它在健康相关查询 (HealthBench⁠) 和竞赛数学 (AIME 2024 和 2025) 方面表现得比 o4-mini 更好。尽管 gpt-oss-20b 的规模较小，但在这些相同的评估中，它与 OpenAI o3‑mini 持平或超越后者，甚至在竞赛数学和医疗方面表现得更好。详细对比如下图：

与其它模型对比

来源：https://x.com/hud_evals/status/1952846781286658393

三、架构细节：兼顾性能与效率的设计

来源：https://x.com/rasbt/status/1952842273848279364

GPT OSS在架构上有多项创新，确保高效推理与长上下文处理：

Token-choiceMoE：激活函数采用SwiGLU，选出Top-k专家后对其权重执行softmax（softmax-after-topk）；
注意力机制：使用RoPE相对位置编码，最长支持128K Token；交替采用“全局上下文”与“滑动128 Token窗口”机制，每个注意力头引入learned attention sink（增强长上下文稳定性）；
分词器：与GPT-4o等OpenAI API模型共用，并新增Token兼容Responses API。

四、推理方式：灵活适配不同场景

无论是通过云端API调用，还是本地部署，GPT OSS都提供了便捷的实现路径。

1. 通过推理提供商调用API

GPT OSS已接入Hugging Face的Inference Providers服务，支持AWS、Cerebras、Fireworks AI等多家提供商。开发者可通过统一的Python/JavaScript SDK快速调用，兼容OpenAI风格的Chat Completions API和Responses API（目前最先进的聊天模型接口）。

示例（Python + Cerebras）：

from openai import OpenAIclient = OpenAI(    inference_provider="cerebras",    api_key="YOUR_HF_API_KEY")response = client.chat.completions.create(    model="openai/gpt-oss-120b",    messages=[{"role": "user", "content": "用中文解释MXFP4量化是什么？"}],)print(response.choices[0].message.content)

2. 本地推理：支持多种工具与硬件优化

（1）使用Transformers

需安装最新版transformers（≥v4.55）及相关依赖，支持MXFP4量化（需Hopper/Blackwell GPU）、Flash Attention 3（提升速度）等优化。

示例（20B模型推理）：

from transformers import AutoModelForCausalLM, AutoTokenizermodel_id = "openai/gpt-oss-20b"tokenizer = AutoTokenizer.from_pretrained(model_id)model = AutoModelForCausalLM.from_pretrained(    model_id, device_map="auto", torch_dtype="auto")messages = [{"role": "user", "content": "strawberry中有几个r？"}]inputs = tokenizer.apply_chat_template(messages, return_tensors="pt").to(model.device)generated = model.generate(**inputs, max_new_tokens=100)print(tokenizer.decode(generated[0][inputs["input_ids"].shape[-1]:]))（2）其他工具支持

2. 本地推理：支持多种工具与硬件优化

Llama.cpp：原生支持MXFP4和Flash Attention，适配Metal、CUDA等后端，可通过llama-server快速启动；
vLLM：支持sink attention与Flash Attention 3，适合Hopper GPU，可通过vllm serve命令部署；
transformers serve：无需额外依赖，本地快速启动服务，支持Responses API和Completions API。

3. 硬件优化配置推荐

不同硬件适配的优化方案不同，下表可作为参考：

五、微调与部署：适配个性化需求

1. 微调支持

GPT OSS全面集成trl库，提供基于SFTTrainer的示例脚本，支持LoRA等微调方式（如多语言推理切换）。微调时需注意：仅保留最新一段思维链，对标签进行掩码（仅解除最后一条assistant消息的掩码）。

2. 部署至合作伙伴平台

Azure：模型已入驻Azure AI Model Catalog，可直接部署至在线端点，借助Azure的企业级基础设施实现自动扩缩与监控；
Dell：通过Dell Enterprise Hub部署，支持XE9680、XE8640等搭载H100/H200的平台，提供优化容器与原生硬件支持。

六、聊天模板与工具使用：提升交互灵活性

1. 聊天模板设计

模型引入“channels”概念，输出包含“analysis（推理链）”和“final（最终答案）”两个渠道，通常只需保留“final”部分。训练时可通过“thinking”字段加入思维链，确保模型学习推理过程。

2. 工具调用能力

支持两类工具：内置的browser和python，以及用户自定义工具（通过JSON Schema或Python函数定义）。调用时需将工具信息传入聊天模板，模型会自动决定是否调用并返回结果。

示例（调用天气查询工具）：

def get_current_weather(location: str):    """返回指定地点的当前天气状况"""    return "晴，25℃"  # 示例返回chat = [{"role": "user", "content": "巴黎现在的天气如何？"}]inputs = tokenizer.apply_chat_template(    chat, tools=[get_current_weather], add_generation_prompt=True, return_tensors="pt")

七、总结：开源生态的重要一步

OpenAI表示，GPT OSS的发布是其履行“让人工智能惠及全人类”使命的关键举措，尤其满足了私有部署、本地推理等场景需求。Hugging Face则认为，这一模型将成为开源社区的旗舰产品，推动AI技术在更多领域的创新应用。

无论是开发者、企业还是研究人员，都可通过Hugging Face平台快速体验GPT OSS，探索其在强推理、智能体任务中的潜力。未来，随着生态的完善，这一系列模型或将成为开源AI领域的重要基石。

【声明】内容源于网络

洞见畏来

专注于前沿科技趋势，剖析底层算法逻辑，深耕商业化场景落地

内容 633

粉丝 0

洞见畏来专注于前沿科技趋势，剖析底层算法逻辑，深耕商业化场景落地

总阅读228

粉丝0

内容633