大数跨境

OpenAI 发布 GPT-4.1 系列:全系支持百万 token

OpenAI 发布 GPT-4.1 系列:全系支持百万 token 元龙数字智能科技
2025-04-15
0

OpenAI 发布 GPT-4.1 系列

全系支持百万 token

2025年4月15日凌晨,OpenAI正式发布全新GPT-4.1系列模型,包含GPT-4.1、GPT-4.1 mini和GPT-4.1 nano三个版本。这一系列产品以“性能全面超越前代、成本显著降低、开发者友好”为核心亮点,通过API向所有开发者开放,并计划于三个月后(2025年7月14日)逐步弃用GPT-4.5预览版,为行业带来了新一轮技术升级。

GPT-4.1系列延续了OpenAI对模型分层的策略,三款产品针对不同需求提供精准解决方案。作为旗舰型号的GPT-4.1主打全场景高性能,在编程、指令遵循、长上下文理解等核心领域树立新标杆;GPT-4.1 mini聚焦小型化场景,在保持高智能水平的同时大幅降低延迟和成本;GPT-4.1 nano则是目前OpenAI速度最快、价格最低的模型,专为低延迟任务如实时分类、自动补全等设计。三者均支持高达100万token的上下文窗口,较前代GPT-4o的12.8万token实现近8倍提升,为处理大型代码库、法律文档、长视频等复杂任务提供了硬件级支撑。OpenAI特别强调,新系列模型在训练过程中深度融入开发者反馈,针对实际应用中的高频场景进行优化,例如针对需要频繁处理长文本的法律、教育、客服等行业,在上下文连贯性和关键信息提取上进行了专项强化;针对编程场景,通过代码diff格式的精准支持帮助开发者减少冗余操作,提升工程效率。

在开发者最关注的编程能力方面,GPT-4.1展现出碾压级优势。在衡量真实软件工程技能的SWE-bench Verified测试中,其得分达到54.6%,较GPT-4o的33.2%提升21.4%,远超同期其他模型。具体表现为代码生成的可运行性显著提高,无关编辑频率从GPT-4o的9%降至2%;在处理多语言代码diff时,得分较前代翻倍,甚至比GPT-4.5高出8%。前端开发场景中,人工评测显示其生成的Web应用在功能性和美观度上,80%的案例优于GPT-4o的输出。

指令遵循能力的提升是另一大亮点。OpenAI构建了涵盖格式遵循、负面指令处理、有序步骤执行等多维度的评估体系,发现GPT-4.1在复杂指令场景下的表现尤为突出。例如在Scale的MultiChallenge基准测试中,其得分38.3%,较GPT-4o提升10.5%;在IFEval测试中,以87.4%的成绩超越前代的81.0%。模型能够更精准地处理XML、YAML等自定义格式,严格遵守“避免无关信息”“按顺序执行步骤”等约束条件,尤其适合需要高度结构化输出的企业级应用,如数据报表生成、客服工单处理等。

长上下文理解能力是GPT-4.1系列的颠覆性突破。100万token的窗口相当于约8个完整React代码库或30万字的文档,模型不仅能稳定处理极限长度的输入,还能高效检索和关联分散在上下文中的关键信息。OpenAI通过两项新评估工具验证了这一能力:在OpenAI-MRCR测试中,模型需从多轮对话中识别特定请求,即使上下文长达128K token,准确率仍显著高于GPT-4o;在Graphwalks数据集上,面对需要多跳推理的有向图问题,GPT-4.1以61.7%的准确率达到与GPT-4.5相当的水平,远超前代模型。这种能力直接赋能法律合同审查、代码库跨文件调试、长视频内容分析等复杂场景,解决了传统模型“上下文越长、性能衰减越明显”的痛点。

除了性能提升,OpenAI在成本控制上展现出明确的开发者友好导向。价格方面,GPT-4.1的中等规模查询成本较GPT-4o降低26%,而nano版本作为入门级选项,成本仅为前代的1/6,延迟减少近半。针对重复调用相同上下文的场景,即时缓存折扣从50%提升至75%,进一步降低长期使用成本。值得注意的是,100万token的长上下文支持无需额外付费,彻底改变了“长文本处理等于高成本”的行业惯例。在技术实现上,OpenAI通过优化推理系统架构,在保持高吞吐量的同时降低计算资源消耗,例如nano模型在MMLU测试中得分80.1%、GPQA测试中得分50.3%,甚至超越了GPT-4o mini,实现了“小模型大能力”的突破,使得中小型企业和个人开发者也能负担得起先进的AI服务

虽然此次发布以文本模型为核心,GPT-4.1系列在视觉理解领域同样取得进展。Mini版本在MMMU、MathVista等基准测试中多次击败GPT-4o,显示出强大的图文关联能力。结合100万token的长上下文,模型在处理包含多帧图像的长视频时表现优异,如在Video-MME基准中得分72.0%,较前代提升6.7%,为视频内容分析、教育课件解读等场景提供了新可能。OpenAI同步开源了Graphwalks等评估工具,推动行业建立更科学的长上下文推理评测体系,配合Responses API等原语,新模型在构建智能体时表现更可靠,能够减少人工干预,提升任务完成效率。

GPT-4.1的发布标志着OpenAI从“追求技术极限”转向“技术落地优化”的重要节点。CEO山姆·奥特曼强调,新模型不仅在基准测试中领先,更聚焦真实场景的实用性,“让开发者感到开心”是核心目标。这种转变体现在对中小企业需求的响应、对工程效率的提升,以及对长上下文等痛点的针对性解决。随着三个月后GPT-4.5的逐步退役,开发者需要加快迁移步伐,OpenAI提供的过渡窗口期和详细的性能对比文档有助于平滑切换过程。行业预计,新模型将在代码生成、文档处理、智能客服等领域掀起应用高潮,尤其利好依赖AI提效的科技公司、法律机构和教育平台。

从技术趋势看,GPT-4.1展现的“长上下文+低成本+高可靠”三角模型,为通用AI的规模化商用奠定了基础。当模型能够高效处理百万级token、以亲民价格响应高频请求,AI将不再局限于“惊艳demo”,而是真正融入企业核心工作流,成为像云计算一样的基础设施级服务。此次发布不仅是OpenAI的一次产品迭代,更重新定义了AI模型的价值标准——在算力成本高企的当下,“又快又好又便宜”的技术组合才是驱动产业变革的核心竞争力。随着开发者社区的反馈持续注入,GPT-4.1系列有望在未来数月内催生更多创新应用,让人工智能的红利惠及更广泛的群体。

END

【声明】内容源于网络
0
0
元龙数字智能科技
永做第一 使命第一 向善第一
内容 901
粉丝 0
元龙数字智能科技 永做第一 使命第一 向善第一
总阅读1.3k
粉丝0
内容901