大数跨境

OpenAI 扔下 “王炸”:GPT OSS 开源模型家族,重新定义 AI 开发门槛

OpenAI 扔下 “王炸”:GPT OSS 开源模型家族,重新定义 AI 开发门槛 洞见畏来
2025-08-07
0
导读:OpenAI 扔下 “王炸”:GPT OSS 开源模型家族,重新定义 AI 开发门槛

2025年8月5日,Hugging Face官方博客宣布了一个重磅消息:OpenAI推出了全新开放模型家族GPT OSS。这一系列模型面向强推理、智能体任务及多样化开发场景,旨在推动开源生态发展,让人工智能惠及更广泛的人群。

一、GPT OSS模型核心信息

【官方demo体验地址】https://gpt-oss.com/
【发布说明-中文版】https://openai.com/zh-Hans-CN/index/introducing-gpt-oss/
【发布说明-英文版】https://openai.com/index/introducing-gpt-oss/
【官网】https://openai.com/open-models/
【代码】https://github.com/openai/gpt-oss
【模型120b】https://huggingface.co/openai/gpt-oss-120b
【模型20b】https://huggingface.co/openai/gpt-oss-20b/tree/main

GPT OSS系列包含两款模型,核心参数与特点如下:

  • gpt-oss-120b:1170亿参数,活跃参数51亿,采用4-bit MXFP4量化方案(仅应用于MoE权重),可部署于单张H100 GPU(80GB显存)。

  • gpt-oss-20b:210亿参数,活跃参数36亿,同样支持MXFP4量化,仅需16GB显存即可运行,适合消费级硬件和端侧应用。

两款模型均采用Mixture-of-Experts(MoE)架构,具备三大核心能力:

  • 内置链式思维(Chain-of-Thought),可调节推理强度;

  • 支持指令跟随与工具调用,适配生成式AI和智能体工作流;

  • 兼容多种推理工具(Transformers、vLLM、Llama.cpp等)。

值得关注的是,模型采用Apache 2.0许可证,附带精简使用政策——仅要求遵守适用法律,确保安全、负责且民主地使用,最大化开发者对使用方式的控制权。

二、性能评估

  1. openai模型评估

我们对 gpt-oss-120b 和 gpt-oss-20b 在标准学术基准测试中进行了评估,以衡量其在编程、竞赛数学、医疗和智能体工具使用方面的能力,并与其他 OpenAI 推理模型(包括 o3、o3‑mini 和 o4-mini)进行了比较。
Gpt-oss-120b 在竞赛编程 (Codeforces)、通用问题解决 (MMLU 和 HLE) 以及工具调用 (TauBench) 方面表现优于 OpenAI o3‑mini,并与 OpenAI o4-mini 持平或超越其性能。此外,它在健康相关查询 (HealthBench⁠) 和竞赛数学 (AIME 2024 和 2025) 方面表现得比 o4-mini 更好。尽管 gpt-oss-20b 的规模较小,但在这些相同的评估中,它与 OpenAI o3‑mini 持平或超越后者,甚至在竞赛数学和医疗方面表现得更好。详细对比如下图:







  1. 与其它模型对比

来源:https://x.com/hud_evals/status/1952846781286658393

三、架构细节:兼顾性能与效率的设计


来源:https://x.com/rasbt/status/1952842273848279364

GPT OSS在架构上有多项创新,确保高效推理与长上下文处理:
  • Token-choiceMoE:激活函数采用SwiGLU,选出Top-k专家后对其权重执行softmax(softmax-after-topk);

  • 注意力机制:使用RoPE相对位置编码,最长支持128K Token;交替采用“全局上下文”与“滑动128 Token窗口”机制,每个注意力头引入learned attention sink(增强长上下文稳定性);

  • 分词器:与GPT-4o等OpenAI API模型共用,并新增Token兼容Responses API。

四、推理方式:灵活适配不同场景


无论是通过云端API调用,还是本地部署,GPT OSS都提供了便捷的实现路径。

1. 通过推理提供商调用API

GPT OSS已接入Hugging Face的Inference Providers服务,支持AWS、Cerebras、Fireworks AI等多家提供商。开发者可通过统一的Python/JavaScript SDK快速调用,兼容OpenAI风格的Chat Completions API和Responses API(目前最先进的聊天模型接口)。

示例(Python + Cerebras):

from openai import OpenAIclient = OpenAI(    inference_provider="cerebras",    api_key="YOUR_HF_API_KEY")response = client.chat.completions.create(    model="openai/gpt-oss-120b",    messages=[{"role""user""content""用中文解释MXFP4量化是什么?"}],)print(response.choices[0].message.content)

2. 本地推理:支持多种工具与硬件优化

(1)使用Transformers

需安装最新版transformers(≥v4.55)及相关依赖,支持MXFP4量化(需Hopper/Blackwell GPU)、Flash Attention 3(提升速度)等优化。

示例(20B模型推理):

from transformers import AutoModelForCausalLM, AutoTokenizermodel_id = "openai/gpt-oss-20b"tokenizer = AutoTokenizer.from_pretrained(model_id)model = AutoModelForCausalLM.from_pretrained(    model_id, device_map="auto", torch_dtype="auto")messages = [{"role""user""content""strawberry中有几个r?"}]inputs = tokenizer.apply_chat_template(messages, return_tensors="pt").to(model.device)generated = model.generate(**inputs, max_new_tokens=100)print(tokenizer.decode(generated[0][inputs["input_ids"].shape[-1]:]))(2)其他工具支持

2. 本地推理:支持多种工具与硬件优化

  • Llama.cpp:原生支持MXFP4和Flash Attention,适配Metal、CUDA等后端,可通过llama-server快速启动;

  • vLLM:支持sink attention与Flash Attention 3,适合Hopper GPU,可通过vllm serve命令部署;

  • transformers serve:无需额外依赖,本地快速启动服务,支持Responses API和Completions API。

3. 硬件优化配置推荐

不同硬件适配的优化方案不同,下表可作为参考:

五、微调与部署:适配个性化需求

1. 微调支持

GPT OSS全面集成trl库,提供基于SFTTrainer的示例脚本,支持LoRA等微调方式(如多语言推理切换)。微调时需注意:仅保留最新一段思维链,对标签进行掩码(仅解除最后一条assistant消息的掩码)。

2. 部署至合作伙伴平台

  • Azure:模型已入驻Azure AI Model Catalog,可直接部署至在线端点,借助Azure的企业级基础设施实现自动扩缩与监控;

  • Dell:通过Dell Enterprise Hub部署,支持XE9680、XE8640等搭载H100/H200的平台,提供优化容器与原生硬件支持。

六、聊天模板与工具使用:提升交互灵活性

1. 聊天模板设计

模型引入“channels”概念,输出包含“analysis(推理链)”和“final(最终答案)”两个渠道,通常只需保留“final”部分。训练时可通过“thinking”字段加入思维链,确保模型学习推理过程。

2. 工具调用能力

支持两类工具:内置的browserpython,以及用户自定义工具(通过JSON Schema或Python函数定义)。调用时需将工具信息传入聊天模板,模型会自动决定是否调用并返回结果。

示例(调用天气查询工具):

def get_current_weather(location: str):    """返回指定地点的当前天气状况"""    return "晴,25℃"  # 示例返回chat = [{"role""user""content""巴黎现在的天气如何?"}]inputs = tokenizer.apply_chat_template(    chat, tools=[get_current_weather], add_generation_prompt=True, return_tensors="pt")


七、总结:开源生态的重要一步

OpenAI表示,GPT OSS的发布是其履行“让人工智能惠及全人类”使命的关键举措,尤其满足了私有部署、本地推理等场景需求。Hugging Face则认为,这一模型将成为开源社区的旗舰产品,推动AI技术在更多领域的创新应用。

无论是开发者、企业还是研究人员,都可通过Hugging Face平台快速体验GPT OSS,探索其在强推理、智能体任务中的潜力。未来,随着生态的完善,这一系列模型或将成为开源AI领域的重要基石。


【声明】内容源于网络
0
0
洞见畏来
专注于前沿科技趋势,剖析底层算法逻辑,深耕商业化场景落地
内容 633
粉丝 0
洞见畏来 专注于前沿科技趋势,剖析底层算法逻辑,深耕商业化场景落地
总阅读228
粉丝0
内容633