前言
近日,OpenAI正式发布了两款开源大模型GPT-OSS-120B和GPT-OSS-20B,采用Apache 2.0许可证开放权重。技术架构方面,模型采用混合专家(MoE)架构的Transformer结构。GPT-OSS-120B激活参数量为51亿,总参数量1170亿;GPT-OSS-20B激活36亿参数,总参数量210亿。模型创新性地采用稠密与局部带状稀疏交替的注意力模式,配合分组多查询注意力(分组大小为8)和旋转位置编码(RoPE),在保证性能的同时将上下文长度支持提升至128K token。
性能方面,GPT-OSS-120B在核心推理基准测试中接近OpenAI o4-mini水平,且仅需单张80GB GPU即可运行;GPT-OSS-20B性能对标o3-mini,最低只需16GB内存,适合边缘设备部署。两款模型在工具调用、思维链推理和医疗基准测试中均表现优异,甚至超越GPT-4o等闭源模型。本文将深入解析这两款模型的技术特点、安全架构及其潜在影响。
文章链接:https://arxiv.org/abs/2508.10925
模型概览
OpenAI此次采用了双模型发布策略:
GPT-OSS-120B:1200亿参数版本,36层结构,每前向传播激活51亿参数
GPT-OSS-20B:200亿参数版本,24层结构,每前向传播激活36亿参数
这种设计既满足了不同算力用户的需求,也体现了模型效率优化的最新成果。通过混合专家模型(MoE)架构,两个模型都能在保持强大性能的同时显著降低计算成本。
技术创新
模型参数计数
1、模型架构 (Model Architecture)
基础架构
基于自回归的混合专家模型 (Mixture-of-Experts, MoE) Transformer,继承自GPT-2和GPT-3架构。
模型规格
gpt-oss-120b: 36层,总参数量116.8B,每前向传播的激活参数量为5.1B。
gpt-oss-20b: 24层,总参数量20.9B,每前向传播的激活参数量为3.6B。
参数构成详见提供的表格(MLP占绝大部分)。
量化 (Quantization):
对MoE权重进行MXFP4格式(4.25比特/参数)量化,显著减小模型体积(120b模型可放入单张80GB GPU,20b模型仅需16GB内存)。checkpoint大小分别为60.8GiB和12.8GiB。
关键组件:
(1)残差流维度: 2880。
(2)归一化: 在每次注意力和MoE块前对激活应用RMSNorm (Root Mean Square Normalization)。
(3)MoE模块:
120b有128个专家,20b有32个专家。
每个token通过路由器选择top-4专家,输出由所选专家的softmax加权。
使用门控SwiGLU激活函数(包含非常规的clamping和残差连接)。
(4)注意力机制 (Attention):
交替使用带状窗口(带宽128 token)和全密集模式。
分组查询注意力 (Grouped Query Attention, GQA): 64个查询头(维度64),8个键值头。
位置编码: 使用旋转位置编码 (RoPE)。
上下文长度: 使用YaRN方法扩展至131,072 token。
在softmax分母中加入可学习的偏置(类似“attention sinks”),使模型可以“不注意”任何token。
2、分词器 (Tokenizer)
使用o200k_harmony 分词器(已在TikToken库中开源)。
基于BPE (Byte Pair Encoding),是GPT-4o等模型使用的o200k分词器的扩展。
专门包含了用于Harmony聊天格式的token。
词汇表大小: 201,088。
3、预训练 (Pretraining)
数据: 数万亿token的纯文本数据集,侧重STEM、编程和通用知识。
安全过滤: 重用GPT-4o的CBRN(生化、放射、核)预训练过滤器来去除有害内容,特别是生物安全风险知识
知识截止日期: 2024年6月。
训练基础设施: 使用NVIDIA H100 GPU和PyTorch框架,配合Triton内核优化。
训练成本:gpt-oss-120b训练耗时210万H100小时,20b版本约为其1/10。
训练加速: 利用 Flash Attention 算法降低内存需求并加速训练。
4、后训练:推理与工具使用 (Post-Training)
使用与OpenAI o3类似的思维链强化学习 (CoT RL) 技术进行后训练,教会模型如何进行推理和使用工具,使其个性与ChatGPT等产品中的模型相似。
Harmony 聊天格式:
一种自定义格式,使用特殊token和关键字(如 User, Assistant, System, Developer, Tool)来区分消息边界和角色。
角色层级: System > Developer > User > Assistant > Tool,用于解决指令冲突。
引入 “通道 (channels)” 概念(如 analysis, commentary, final)来控制消息的可见性,实现高级智能体功能(如在CoT中交织工具调用、向用户展示行动计划提纲)。
正确使用此格式对发挥模型最佳能力至关重要。
可变强度推理训练 (Variable Effort Reasoning):
模型被训练支持三种推理强度:low (低), medium (中), high (高)。
通过系统提示中的关键词(如 "Reasoning: low")配置。
更高的推理强度会导致平均思维链 (CoT) 长度增加。
智能体工具使用 (Agentic Tool Use):
训练模型使用多种工具:
(1)浏览工具: 进行网页搜索和交互,提高事实性并获取截止日期后的信息。
(2)Python工具: 在有状态的Jupyter notebook环境中运行代码。
(3)任意开发者定义函数: 类似OpenAI API,可在Developer消息中定义函数模式,模型能交织CoT、函数调用、响应和最终答案。
模型可通过系统提示配置为使用或不使用这些工具。
安全架构
OpenAI进行了首次创新的对抗性微调安全测试:
模拟恶意攻击者对模型进行对抗性微调
使用增量强化学习技术尝试突破安全限制
邀请外部安全专家(METR、SecureBio等)参与评审
测试结果表明,即使使用OpenAI最先进的训练基础设施进行恶意微调,GPT-OSS-120B也未达到风险阈值。
性能表现
在多项标准基准测试上评估,并与OpenAI的o3、o3-mini、o4-mini模型对比。
核心能力 (推理与事实性):
gpt-oss-120b 在大多数任务上超越 o3-mini,接近 o4-mini 的精度。
gpt-oss-20b 尽管小得多,表现也极具竞争力。
模型特别擅长数学,因能有效使用极长的CoT(如20b模型在AIME上平均使用超2万CoT token)。
编程与工具使用:
在Codeforces (Elo评分)、SWE-Bench (软件工程)、Tau-Bench (函数调用)上表现强劲。
gpt-oss-120b 再次接近 o4-mini 的性能。工具使用能显著提升代码能力。
测试时缩放 (Test-time Scaling):
模型表现出平滑的测试时缩放效应:推理强度(CoT长度)与准确率呈对数线性关系。更长的CoT带来更高精度,但也增加延迟和成本。用户需根据用例权衡。
医疗领域性能:
在HealthBench基准上,gpt-oss-120b (high模式) 表现与OpenAI o3 相当,显著优于 GPT-4o, o1, o3-mini, o4-mini。
代表了性能-成本帕累托前沿的巨大改进,在注重隐私和成本的全球健康领域可能尤其有影响力。
(重要提示)模型不能替代医疗专业人员,不用于疾病诊断或治疗。
多语言性能:
在MMMLU(14种语言的MMLU)上评估。
gpt-oss-120b (high模式) 的性能接近 o4-mini-high。
平均准确率随推理强度增加而提升(120b: low 74.1%, medium 79.3%, high 81.3%)。
完整评估数据:
文档提供了在所有推理强度 (low, medium, high) 下, across all reasoning levels 涵盖数学(AIME)、科学(GPQA)、知识(MMLU)、高难度问题(HLE)、编程(SWE-Bench, Codeforces Elo)、函数调用(Tau-Bench)、多语言(MMMLU)和医疗(HealthBench)的完整评估结果表格。
健康标准性能评估
编码标准性能评估
模型在不同推理强度和标准下的评估结果
结语
GPT-OSS系列的发布展现了开源模型与安全治理并重的发展路径。这两款模型在架构设计上体现了实用性考量:120B版本在接近闭源模型性能的同时显著降低部署门槛,20B版本则为边缘计算场景提供了可行的本地部署方案。其支持的动态推理强度调节和工具调用能力,显示出模型在复杂任务处理上的成熟度。同时,OpenAI对模型进行的对抗性测试和安全评估,为开源模型的风险管控提供了可参考的方法论。

