击下方卡片,关注“AI前沿速递”公众号
各种重磅干货,第一时间送达
各种重磅干货,第一时间送达
官方定调: 这是一种面向实际工作和智能体的新型智能。

这一次,Sam Altman 没有再亲自上阵大喊“初体验被吓到眩晕瘫坐,那一刻就像看到原子弹爆炸”,而是请来了一群硬核的“早期测试用户”来做嘴替。
其中一位英伟达工程师,在早期测试结束后短暂失去了 GPT-5.5 的访问权限,他只留下了一句令人毛骨悚然的评价:
“失去 GPT-5.5,就像被截肢。”
玩笑归玩笑,但这次 OpenAI 掏出的东西,确实有点颠覆认知。
史诗级双向奔赴:OpenAI × 英伟达
OpenAI 与英伟达这次的合作,堪称前所未有:
-
1. 软硬一体的极致打磨: GPT-5.5 与英伟达 GB200、GB300 NVL72 系统是联合设计的。从模型训练到最终部署,软件和硬件从诞生起就在双向奔赴。 -
2. Codex 全面接入: Altman 甚至直接晒出了与黄仁勋的邮件,宣布将 Codex 推广到英伟达全公司。
合作的成果如何?数据说明一切。
与上一代 GPT-5.4 相比,新模型在代码、知识工作、科学研究三个核心领域全面拉开身位。根据 Artificial Analysis Intelligence Index 的综合测试,GPT-5.5 的表现可以总结为两点:
-
• 达到相同分数,比 Claude Opus 4.7 和其他模型消耗的 Token 更少。 -
• 消耗同等 Token,能完成的复杂任务更多。
打破“变强必变慢”的铁律
如果你熟悉大模型,一定知道 Scaling Law(缩放定律)的代价:过去每一次模型升级,“更强”和“更慢”几乎是打包出售的。 更大的模型、更多的参数,必然意味着更长的思考时间。用户在为智能买单的同时,也在为延迟买单。
但 GPT-5.5 打破了这条铁律。
在真实的生产环境中,它的逐 Token 延迟与 GPT-5.4 相当,但完成相同任务所需的 Token 却更少了。一句话总结:效率更高,能力更强。(当然,代价是价格也翻倍了)。
目前,最新版的 Codex 已经全面接入 GPT-5.5,上下文窗口更是直接拉满到了 400K。
编程领域:真正的“开挂”体验
编程,是 GPT-5.5 进化最恐怖的领域。
用上一代模型写代码,你还需要像带实习生一样,小心翼翼地拆解任务,一步步盯着它走,随时准备纠偏。但在 GPT-5.5 面前,时代变了:
你只需要把需求丢过去,它会自己拆解、自己执行、自己检查,你只管看结果。
在 OpenAI 的演示中,GPT-5.5 在 Codex 下直接生成了一个可以在网页上运行的 3D 动作游戏(包括用 TypeScript/Three.js 实现的战斗系统、敌人遭遇、HUD 反馈以及生成的环境纹理)。
-
• 硬核测试 Terminal-Bench 2.0(衡量复杂命令行工作流): -
• 上一代 GPT-5.4:75.1% -
• 最强竞品 Claude Opus 4.7:69.4% -
• GPT-5.5:82.7%
这意味着什么?碰到这种级别的地狱级难题,上一代模型有近三分之一会卡死,而现在这个比例被硬生生压到了四分之一以下。
早期测试者、初创公司 CEO Dan Shipper 做了一个极具挑战性的实验:他把自家 App 里一个需要顶尖工程师花大功夫才能修复的 Bug 丢给了模型。GPT-5.4 败下阵来,但 GPT-5.5 成功给出了和顶尖工程师一模一样的决策方案。
Shipper 惊呼,这是他第一次在一个 AI 身上感受到真正的**“概念清晰度”**——它不是在根据上下文“接话”,而是真正理解了问题,并自己想明白了解决方案。
如果说别的模型还停留在“帮你查资料、润色文字、补几行代码”,那 GPT-5.5 已经开始直接吃科研主流程了。
从“搜索引擎”到“研究伙伴”
编程只是开始,这种能力跃迁正在疯狂向知识工作和科学研究领域蔓延。
在 Codex 里,GPT-5.5 甚至包揽了生成文档、整理表格、做 PPT 的活儿。OpenAI 透露了一个惊人的数据:他们公司内部超过 85% 的员工,每周都在用 Codex 干活(不禁让人好奇另外 15% 是干什么的?)。
-
• 知识工作基准测试 GDPval: GPT-5.5 拿下 84.9%,高出 Claude Opus 4.7 整整 4.6 个百分点。 -
-
• 最难数学基准 FrontierMath Tier 4: GPT-5.5 Pro 狂砍 39.6%(Claude Opus 4.7 仅为 22.9%,差距几近一倍)。 -
真正的科研人员是怎么用它的?
-
• 11分钟的奇迹: 波兰数学助理教授 Bartosz Naskręcki 给 Codex 写了一句需求。仅仅 11 分钟后,一个复杂的代数几何可视化应用就跑起来了。在以前,这 11 分钟只够搭个项目框架。 -
-
• 省下数月时间: 免疫学教授 Derya Unutmaz 让 GPT-5.5 Pro 分析了一份包含 62 个样本、近 28000 个基因的数据集。AI 直接产出了一份完整的研究报告,而这本是整个团队几个月的工作量。
11 分钟做出复杂可视化应用、分析 28000 个基因数据并产出完整报告、在 Ramsey 数问题上拿出原创证明路径——这些都不是“帮你省点时间”那么简单。GPT-5.5,不是让科研人员写东西更轻松一点,而是它第一次让人看到:AI 已经不满足于做科研的助手,而是在开始参与科研本身。
最令人震撼的是,GPT-5.5 在纯数学核心领域做出了原创贡献。
它为组合数学里最核心的难题之一——Ramsey 数(非对角 Ramsey 数的渐近性质),找到了一条全新的证明路径!这不是复现已知方法,而是真正的无中生有。随后,这个证明被数学界最严格的形式化验证工具 Lean 确认无误。
一年前,谁敢想象 AI 能在纯数学领域拿到这种级别的“军功章”?
细思极恐的细节:AI 正在优化自己
“更强却更快”到底是怎么做到的?除了与英伟达的硬件底座联合设计,OpenAI 还讲了另一个让人脊背发凉的故事。
GPT-5.5 驱动的 Codex 系统,分析了服务器数周的生产流量数据,然后……它自己写出了一个负载均衡的分区启发式算法。
以前,请求被切分成固定数量的块分发给加速器,资源利用率忽高忽低。Codex 在看懂了真实流量形态后,给自己写了一套“自适应分区算法”,动态调整分块策略。
结果?Token 生成速度直接提升了超过 20%。
你没看错:模型优化了运行自己的基础设施,AI 正在写代码让自己跑得更快。
OpenAI 称这是“迈向用计算机完成工作的新方式的一步”。但当一个 AI 已经开始主动优化自己运行的底层逻辑时,这一步,到底迈向了多深远的未来?
One More Thing
“有了 GPT-5.5,OpenAI 预计接下来的模型发布节奏将会加快。”
OpenAI 首席科学家 Jakub Pachocki 在媒体电话会上留下了这样一段耐人寻味的话:
“我们看到短期内有相当显著的进步,中期有极其显著的进步。老实说,我认为过去几年 AI 的进展,出乎意料地缓慢。”
如果过去这几年叫“缓慢”,那接下来的世界,该有多疯狂?
所以这篇文章真正想说的,不只是“GPT 很厉害”,而是它已经可以成为科研人的效率杠杆。问题不在于要不要用,而在于怎么用、用到哪里、怎样才能真正变成科研产出。也正因为这点,我把自己亲测有效的一套方法整理了出来,希望能帮你少走弯路。
不会找 idea、不会搭环境、代码一报错就卡住、论文写作迟迟没有进展,这几乎是每个科研人都会遇到的问题。好消息是,这些环节现在都可以借助 GPT 大幅提速。如果你想要一套真正能落地的 GPT 科研方法,包括找选题、读论文、改代码、做实验、写论文,欢迎和我交流,少走很多弯路。

