

gpt-oss 模型在Azure平台上的性能表现

瀚鹏AI

2025-08-20

近日，微软宣布：其开源大模型系列gpt-oss已在Azure AI Foundry国际版全面部署，并发布针对Azure NV A10与NC H100两种主流GPU机型的性能测评数据。作为OpenAI技术生态的重要延伸，该系列模型在推理效率、长文本处理及边缘部署能力上实现显著突破，为企业客户提供了更灵活的AI基础设施选择。

双模型架构覆盖全场景需求

本次发布的gpt-oss系列包含两款核心模型：1200亿参数的gpt-oss-120b与200亿参数的gpt-oss-20b。

gpt-oss-120b：在核心推理基准测试中表现媲美OpenAI o4-mini，且可在单块80GB显存的NC H100机型上高效运行；

gpt-oss-20b：接近o3-mini的性能，突破性地实现在16GB内存边缘设备上的部署能力，为本地推理、端侧AI及低成本快速迭代场景提供全新解决方案。

MXFP4量化与Sink Token机制

微软Azure团队重点优化了模型量化与注意力机制：

MXFP4混合精度压缩：通过动态缩放与指数尾数编码技术，在保持小数值精度的同时，将大值截断误差控制在可接受范围，实现模型体积与推理效率的平衡。

Sink Token长文本加速：该机制通过在输入序列首部插入全局锚点Token，结合FlashAttention-3内核优化，在超长文本(≥32ktokens)场景下将首token生成时间(TTFT)降低60%，吞吐量提升2.3倍。测试显示，搭载H100 GPU的Azure NC机型在运行gpt-oss-20b时，可实现45-55 tokens/s的持续推理速度，TTFT控制在1秒以内。

Azure平台适配性突破

针对不同GPU架构，微软提供定制化部署方案：

H100高端机型：通过vLLM框架与FA3内核深度集成，gpt-oss-120b在2000并发请求测试中达到32.9 req/s的吞吐量，单卡生成速率达4215 tokens/s，TTFT中位数仅3.36秒。

A10性价比机型：采用Ollama框架与MXFP4量化技术，gpt-oss-20b在单卡A10上实现45-55 tokens/s的稳定输出，内存占用降低70%，支持中小企业低成本部署。

行业应用与生态共建

微软强调，gpt-oss系列已通过Azure AI Foundry实现一键部署，并集成到Power Platform、Dynamics 365等企业服务中。在医疗领域，该模型在HealthBench基准测试中超越GPT-4o等专有模型；在代码生成场景，可快速生成完整Python程序（如终端Tetris游戏），展现了强大的多模态能力。

企业客户可即刻通过Azure AI Foundry体验gpt-oss系列模型。