大数跨境

刚刚,GPT-5.5震撼降临!打破大模型铁律,新模型在代码、知识工作、科研三个核心领域全面拉开身位

刚刚,GPT-5.5震撼降临!打破大模型铁律,新模型在代码、知识工作、科研三个核心领域全面拉开身位 AI前沿速递
2026-04-24
1
导读:刚刚,GPT-5.5震撼降临!打破大模型铁律,新模型在代码、知识工作、科研三个核心领域全面拉开身位

 

击下方卡片,关注“AI前沿速递”公众号

各种重磅干货,第一时间送达

官方定调: 这是一种面向实际工作和智能体的新型智能。

这一次,Sam Altman 没有再亲自上阵大喊“初体验被吓到眩晕瘫坐,那一刻就像看到原子弹爆炸”,而是请来了一群硬核的“早期测试用户”来做嘴替。

其中一位英伟达工程师,在早期测试结束后短暂失去了 GPT-5.5 的访问权限,他只留下了一句令人毛骨悚然的评价:

“失去 GPT-5.5,就像被截肢。”

玩笑归玩笑,但这次 OpenAI 掏出的东西,确实有点颠覆认知。


史诗级双向奔赴:OpenAI × 英伟达

OpenAI 与英伟达这次的合作,堪称前所未有:

  1. 1. 软硬一体的极致打磨: GPT-5.5 与英伟达 GB200、GB300 NVL72 系统是联合设计的。从模型训练到最终部署,软件和硬件从诞生起就在双向奔赴。
  2. 2. Codex 全面接入: Altman 甚至直接晒出了与黄仁勋的邮件,宣布将 Codex 推广到英伟达全公司。

合作的成果如何?数据说明一切。

与上一代 GPT-5.4 相比,新模型在代码、知识工作、科学研究三个核心领域全面拉开身位。根据 Artificial Analysis Intelligence Index 的综合测试,GPT-5.5 的表现可以总结为两点:

  • • 达到相同分数,比 Claude Opus 4.7 和其他模型消耗的 Token 更少。
  • • 消耗同等 Token,能完成的复杂任务更多。

打破“变强必变慢”的铁律

如果你熟悉大模型,一定知道 Scaling Law(缩放定律)的代价:过去每一次模型升级,“更强”和“更慢”几乎是打包出售的。 更大的模型、更多的参数,必然意味着更长的思考时间。用户在为智能买单的同时,也在为延迟买单。

但 GPT-5.5 打破了这条铁律。

在真实的生产环境中,它的逐 Token 延迟与 GPT-5.4 相当,但完成相同任务所需的 Token 却更少了。一句话总结:效率更高,能力更强。(当然,代价是价格也翻倍了)。

目前,最新版的 Codex 已经全面接入 GPT-5.5,上下文窗口更是直接拉满到了 400K


编程领域:真正的“开挂”体验

编程,是 GPT-5.5 进化最恐怖的领域。

用上一代模型写代码,你还需要像带实习生一样,小心翼翼地拆解任务,一步步盯着它走,随时准备纠偏。但在 GPT-5.5 面前,时代变了:

你只需要把需求丢过去,它会自己拆解、自己执行、自己检查,你只管看结果。

在 OpenAI 的演示中,GPT-5.5 在 Codex 下直接生成了一个可以在网页上运行的 3D 动作游戏(包括用 TypeScript/Three.js 实现的战斗系统、敌人遭遇、HUD 反馈以及生成的环境纹理)。

  • • 硬核测试 Terminal-Bench 2.0(衡量复杂命令行工作流):
    • • 上一代 GPT-5.4:75.1%
    • • 最强竞品 Claude Opus 4.7:69.4%
    • • GPT-5.5:82.7%

这意味着什么?碰到这种级别的地狱级难题,上一代模型有近三分之一会卡死,而现在这个比例被硬生生压到了四分之一以下。

早期测试者、初创公司 CEO Dan Shipper 做了一个极具挑战性的实验:他把自家 App 里一个需要顶尖工程师花大功夫才能修复的 Bug 丢给了模型。GPT-5.4 败下阵来,但 GPT-5.5 成功给出了和顶尖工程师一模一样的决策方案。

Shipper 惊呼,这是他第一次在一个 AI 身上感受到真正的**“概念清晰度”**——它不是在根据上下文“接话”,而是真正理解了问题,并自己想明白了解决方案。


如果说别的模型还停留在“帮你查资料、润色文字、补几行代码”,那 GPT-5.5 已经开始直接吃科研主流程了。

从“搜索引擎”到“研究伙伴”

编程只是开始,这种能力跃迁正在疯狂向知识工作和科学研究领域蔓延。

在 Codex 里,GPT-5.5 甚至包揽了生成文档、整理表格、做 PPT 的活儿。OpenAI 透露了一个惊人的数据:他们公司内部超过 85% 的员工,每周都在用 Codex 干活(不禁让人好奇另外 15% 是干什么的?)。

  • • 知识工作基准测试 GDPval: GPT-5.5 拿下 84.9%,高出 Claude Opus 4.7 整整 4.6 个百分点。
  • • 最难数学基准 FrontierMath Tier 4: GPT-5.5 Pro 狂砍 39.6%(Claude Opus 4.7 仅为 22.9%,差距几近一倍)。

真正的科研人员是怎么用它的?

  • • 11分钟的奇迹: 波兰数学助理教授 Bartosz Naskręcki 给 Codex 写了一句需求。仅仅 11 分钟后,一个复杂的代数几何可视化应用就跑起来了。在以前,这 11 分钟只够搭个项目框架。
  • • 省下数月时间: 免疫学教授 Derya Unutmaz 让 GPT-5.5 Pro 分析了一份包含 62 个样本、近 28000 个基因的数据集。AI 直接产出了一份完整的研究报告,而这本是整个团队几个月的工作量。
    11 分钟做出复杂可视化应用、分析 28000 个基因数据并产出完整报告、在 Ramsey 数问题上拿出原创证明路径——这些都不是“帮你省点时间”那么简单。GPT-5.5,不是让科研人员写东西更轻松一点,而是它第一次让人看到:AI 已经不满足于做科研的助手,而是在开始参与科研本身。

最令人震撼的是,GPT-5.5 在纯数学核心领域做出了原创贡献。

它为组合数学里最核心的难题之一——Ramsey 数(非对角 Ramsey 数的渐近性质),找到了一条全新的证明路径!这不是复现已知方法,而是真正的无中生有。随后,这个证明被数学界最严格的形式化验证工具 Lean 确认无误。

一年前,谁敢想象 AI 能在纯数学领域拿到这种级别的“军功章”?


细思极恐的细节:AI 正在优化自己

“更强却更快”到底是怎么做到的?除了与英伟达的硬件底座联合设计,OpenAI 还讲了另一个让人脊背发凉的故事。

GPT-5.5 驱动的 Codex 系统,分析了服务器数周的生产流量数据,然后……它自己写出了一个负载均衡的分区启发式算法。

以前,请求被切分成固定数量的块分发给加速器,资源利用率忽高忽低。Codex 在看懂了真实流量形态后,给自己写了一套“自适应分区算法”,动态调整分块策略。

结果?Token 生成速度直接提升了超过 20%。

你没看错:模型优化了运行自己的基础设施,AI 正在写代码让自己跑得更快。

OpenAI 称这是“迈向用计算机完成工作的新方式的一步”。但当一个 AI 已经开始主动优化自己运行的底层逻辑时,这一步,到底迈向了多深远的未来?


One More Thing

“有了 GPT-5.5,OpenAI 预计接下来的模型发布节奏将会加快。”

OpenAI 首席科学家 Jakub Pachocki 在媒体电话会上留下了这样一段耐人寻味的话:

“我们看到短期内有相当显著的进步,中期有极其显著的进步。老实说,我认为过去几年 AI 的进展,出乎意料地缓慢。”

如果过去这几年叫“缓慢”,那接下来的世界,该有多疯狂?

 



所以这篇文章真正想说的,不只是“GPT 很厉害”,而是它已经可以成为科研人的效率杠杆。问题不在于要不要用,而在于怎么用、用到哪里、怎样才能真正变成科研产出。也正因为这点,我把自己亲测有效的一套方法整理了出来,希望能帮你少走弯路。

不会找 idea、不会搭环境、代码一报错就卡住、论文写作迟迟没有进展,这几乎是每个科研人都会遇到的问题。好消息是,这些环节现在都可以借助 GPT 大幅提速。如果你想要一套真正能落地的 GPT 科研方法,包括找选题、读论文、改代码、做实验、写论文,欢迎和我交流,少走很多弯路。

本月,我们联合了马拉AI数十位金牌导师,一起输出了多年的科研辅导方法论,并且结合我们近1年做科研工具灵研AI的经验,为大家制作了这套市场上仅此一份的《大模型辅助科研实战课》。
此外,我还给大家准备了大模型辅助科研:全学科通用Prompt 模板库,扫描下方二维码,回复【科研】即可免费参加这套大模型全流程辅助科研课程。
马拉AI大模型辅助科研课程

前100名免费

马上扫码报名
让科研坐上火箭↓↓



马拉AI大模型辅助科研课程

前100名免费

马上扫码报名
让科研坐上火箭↓↓


【声明】内容源于网络
0
0
AI前沿速递
AI前沿速递 聚焦人工智能最新科研成果与技术动态,专注前沿论文解读、行业资讯分享与高校招生信息推送,助力AI爱好者和从业者把握学界风向标。每日更新技术干货与深度内容,让全球优秀研究被更多人看见。关注我们,探索AI无限可能!
内容 1937
粉丝 0
AI前沿速递 AI前沿速递 聚焦人工智能最新科研成果与技术动态,专注前沿论文解读、行业资讯分享与高校招生信息推送,助力AI爱好者和从业者把握学界风向标。每日更新技术干货与深度内容,让全球优秀研究被更多人看见。关注我们,探索AI无限可能!
总阅读5.7k
粉丝0
内容1.9k