刚刚，GPT-5.5震撼降临！打破大模型铁律，新模型在代码、知识工作、科研三个核心领域全面拉开身位

AI前沿速递

2026-04-24

导读：刚刚，GPT-5.5震撼降临！打破大模型铁律，新模型在代码、知识工作、科研三个核心领域全面拉开身位

击下方卡片，关注“AI前沿速递”公众号

各种重磅干货，第一时间送达

官方定调： 这是一种面向实际工作和智能体的新型智能。

这一次，Sam Altman 没有再亲自上阵大喊“初体验被吓到眩晕瘫坐，那一刻就像看到原子弹爆炸”，而是请来了一群硬核的“早期测试用户”来做嘴替。

其中一位英伟达工程师，在早期测试结束后短暂失去了 GPT-5.5 的访问权限，他只留下了一句令人毛骨悚然的评价：

“失去 GPT-5.5，就像被截肢。”

玩笑归玩笑，但这次 OpenAI 掏出的东西，确实有点颠覆认知。

史诗级双向奔赴：OpenAI × 英伟达

OpenAI 与英伟达这次的合作，堪称前所未有：

1. 软硬一体的极致打磨： GPT-5.5 与英伟达 GB200、GB300 NVL72 系统是联合设计的。从模型训练到最终部署，软件和硬件从诞生起就在双向奔赴。
2. Codex 全面接入： Altman 甚至直接晒出了与黄仁勋的邮件，宣布将 Codex 推广到英伟达全公司。

合作的成果如何？数据说明一切。

与上一代 GPT-5.4 相比，新模型在代码、知识工作、科学研究三个核心领域全面拉开身位。根据 Artificial Analysis Intelligence Index 的综合测试，GPT-5.5 的表现可以总结为两点：

• 达到相同分数，比 Claude Opus 4.7 和其他模型消耗的 Token 更少。
• 消耗同等 Token，能完成的复杂任务更多。

打破“变强必变慢”的铁律

如果你熟悉大模型，一定知道 Scaling Law（缩放定律）的代价：过去每一次模型升级，“更强”和“更慢”几乎是打包出售的。 更大的模型、更多的参数，必然意味着更长的思考时间。用户在为智能买单的同时，也在为延迟买单。

但 GPT-5.5 打破了这条铁律。

在真实的生产环境中，它的逐 Token 延迟与 GPT-5.4 相当，但完成相同任务所需的 Token 却更少了。一句话总结：效率更高，能力更强。（当然，代价是价格也翻倍了）。

目前，最新版的 Codex 已经全面接入 GPT-5.5，上下文窗口更是直接拉满到了 400K。

编程领域：真正的“开挂”体验

编程，是 GPT-5.5 进化最恐怖的领域。

用上一代模型写代码，你还需要像带实习生一样，小心翼翼地拆解任务，一步步盯着它走，随时准备纠偏。但在 GPT-5.5 面前，时代变了：

你只需要把需求丢过去，它会自己拆解、自己执行、自己检查，你只管看结果。

在 OpenAI 的演示中，GPT-5.5 在 Codex 下直接生成了一个可以在网页上运行的 3D 动作游戏（包括用 TypeScript/Three.js 实现的战斗系统、敌人遭遇、HUD 反馈以及生成的环境纹理）。

• 硬核测试 Terminal-Bench 2.0（衡量复杂命令行工作流）：

• 上一代 GPT-5.4：75.1%
• 最强竞品 Claude Opus 4.7：69.4%
• GPT-5.5：82.7%

这意味着什么？碰到这种级别的地狱级难题，上一代模型有近三分之一会卡死，而现在这个比例被硬生生压到了四分之一以下。

早期测试者、初创公司 CEO Dan Shipper 做了一个极具挑战性的实验：他把自家 App 里一个需要顶尖工程师花大功夫才能修复的 Bug 丢给了模型。GPT-5.4 败下阵来，但 GPT-5.5 成功给出了和顶尖工程师一模一样的决策方案。

Shipper 惊呼，这是他第一次在一个 AI 身上感受到真正的**“概念清晰度”**——它不是在根据上下文“接话”，而是真正理解了问题，并自己想明白了解决方案。

如果说别的模型还停留在“帮你查资料、润色文字、补几行代码”，那 GPT-5.5 已经开始直接吃科研主流程了。

从“搜索引擎”到“研究伙伴”

编程只是开始，这种能力跃迁正在疯狂向知识工作和科学研究领域蔓延。

在 Codex 里，GPT-5.5 甚至包揽了生成文档、整理表格、做 PPT 的活儿。OpenAI 透露了一个惊人的数据：他们公司内部超过 85% 的员工，每周都在用 Codex 干活（不禁让人好奇另外 15% 是干什么的？）。

• 知识工作基准测试 GDPval： GPT-5.5 拿下 84.9%，高出 Claude Opus 4.7 整整 4.6 个百分点。

• 最难数学基准 FrontierMath Tier 4： GPT-5.5 Pro 狂砍 39.6%（Claude Opus 4.7 仅为 22.9%，差距几近一倍）。

真正的科研人员是怎么用它的？

• 11分钟的奇迹： 波兰数学助理教授 Bartosz Naskręcki 给 Codex 写了一句需求。仅仅 11 分钟后，一个复杂的代数几何可视化应用就跑起来了。在以前，这 11 分钟只够搭个项目框架。
• 省下数月时间： 免疫学教授 Derya Unutmaz 让 GPT-5.5 Pro 分析了一份包含 62 个样本、近 28000 个基因的数据集。AI 直接产出了一份完整的研究报告，而这本是整个团队几个月的工作量。
11 分钟做出复杂可视化应用、分析 28000 个基因数据并产出完整报告、在 Ramsey 数问题上拿出原创证明路径——这些都不是“帮你省点时间”那么简单。GPT-5.5，不是让科研人员写东西更轻松一点，而是它第一次让人看到：AI 已经不满足于做科研的助手，而是在开始参与科研本身。

最令人震撼的是，GPT-5.5 在纯数学核心领域做出了原创贡献。

它为组合数学里最核心的难题之一——Ramsey 数（非对角 Ramsey 数的渐近性质），找到了一条全新的证明路径！这不是复现已知方法，而是真正的无中生有。随后，这个证明被数学界最严格的形式化验证工具 Lean 确认无误。

一年前，谁敢想象 AI 能在纯数学领域拿到这种级别的“军功章”？

细思极恐的细节：AI 正在优化自己

“更强却更快”到底是怎么做到的？除了与英伟达的硬件底座联合设计，OpenAI 还讲了另一个让人脊背发凉的故事。

GPT-5.5 驱动的 Codex 系统，分析了服务器数周的生产流量数据，然后……它自己写出了一个负载均衡的分区启发式算法。

以前，请求被切分成固定数量的块分发给加速器，资源利用率忽高忽低。Codex 在看懂了真实流量形态后，给自己写了一套“自适应分区算法”，动态调整分块策略。

结果？Token 生成速度直接提升了超过 20%。

你没看错：模型优化了运行自己的基础设施，AI 正在写代码让自己跑得更快。

OpenAI 称这是“迈向用计算机完成工作的新方式的一步”。但当一个 AI 已经开始主动优化自己运行的底层逻辑时，这一步，到底迈向了多深远的未来？

One More Thing

“有了 GPT-5.5，OpenAI 预计接下来的模型发布节奏将会加快。”

OpenAI 首席科学家 Jakub Pachocki 在媒体电话会上留下了这样一段耐人寻味的话：

“我们看到短期内有相当显著的进步，中期有极其显著的进步。老实说，我认为过去几年 AI 的进展，出乎意料地缓慢。”

如果过去这几年叫“缓慢”，那接下来的世界，该有多疯狂？

所以这篇文章真正想说的，不只是“GPT 很厉害”，而是它已经可以成为科研人的效率杠杆。问题不在于要不要用，而在于怎么用、用到哪里、怎样才能真正变成科研产出。也正因为这点，我把自己亲测有效的一套方法整理了出来，希望能帮你少走弯路。

不会找 idea、不会搭环境、代码一报错就卡住、论文写作迟迟没有进展，这几乎是每个科研人都会遇到的问题。好消息是，这些环节现在都可以借助 GPT 大幅提速。如果你想要一套真正能落地的 GPT 科研方法，包括找选题、读论文、改代码、做实验、写论文，欢迎和我交流，少走很多弯路。

本月，我们联合了马拉AI数十位金牌导师，一起输出了多年的科研辅导方法论，并且结合我们近1年做科研工具灵研AI的经验，为大家制作了这套市场上仅此一份的《大模型辅助科研实战课》。

此外，我还给大家准备了《大模型辅助科研：全学科通用Prompt 模板库》，扫描下方二维码，回复【科研】即可免费参加这套大模型全流程辅助科研课程。

马拉AI大模型辅助科研课程

前100名免费！

马上扫码报名

让科研坐上火箭↓↓

马拉AI大模型辅助科研课程

前100名免费！

马上扫码报名

让科研坐上火箭↓↓

【声明】内容源于网络

AI前沿速递

AI前沿速递聚焦人工智能最新科研成果与技术动态，专注前沿论文解读、行业资讯分享与高校招生信息推送，助力AI爱好者和从业者把握学界风向标。每日更新技术干货与深度内容，让全球优秀研究被更多人看见。关注我们，探索AI无限可能！

内容 1937

粉丝 0

AI前沿速递 AI前沿速递聚焦人工智能最新科研成果与技术动态，专注前沿论文解读、行业资讯分享与高校招生信息推送，助力AI爱好者和从业者把握学界风向标。每日更新技术干货与深度内容，让全球优秀研究被更多人看见。关注我们，探索AI无限可能！

总阅读5.7k

粉丝0

内容1.9k