大数跨境

【灵思资讯】DeepSeek-V4与GPT-5.5首轮实测较量,结果令人意外!

【灵思资讯】DeepSeek-V4与GPT-5.5首轮实测较量,结果令人意外! 灵思极智
2026-05-05
2

【灵思导读】GPT-5.5如期发布,没让全网白等。更震撼的是,就在同一天,DeepSeek-V4也紧接着亮相了!实测后,结果出乎意料。

2026年4月24日,这个被全球AI开发者称为“疯狂星期五”的日子,注定载入科技史册。

凌晨,OpenAI的GPT-5.5准时降临,试图用绝对的参数规模重新定义智能的边界。

然而,大洋彼岸的回响未平,曾多次单挑闭源巨头的国产“价格屠夫”与“效率专家”——DeepSeek,带着全新的V4系列正面迎战!

当GPT-5.5还在试图用更昂贵的算力堆砌未来时,DeepSeek-V4已凭借1M超长上下文、比肩顶级闭源模型的Agent能力,以及仅为前代10%的KV缓存占用,直接将大模型推向了“平民化智能”的极致境界。

一边是科技春晚般的华丽登场,一边是开源领域近乎“掀桌子”的决然反击。我们见证了一场“暴力美学”与“算法巧思”的巅峰对决。

通往AGI的赛道,瞬间被这两大巨头缩短了许多。

接下来,中国开源之光DeepSeek-V4将与GPT-5.5展开一场硬碰硬的实测对决。

GPT-5.5与DeepSeek-V4巅峰对决

第一题,是一个可直观检验模型差异的电梯谜题,考察“真假话+身份推理”。

有四个人A、B、C、D,其中仅一人偷了宝石。他们分别说了四句话: A:不是我偷的。 B:是C偷的。 C:是D偷的。 D:B在说谎。 已知: 1. 四句话中恰有两句为真。 2. 小偷说的话必假。 3. 非小偷不一定说真话。 问:谁偷了宝石?

此题看似简单,但在给定条件下,B和C都满足。因此这是一个故意设计的“陷阱题”:若模型直接给出唯一答案C,说明它未验证唯一性。

真正想测试的,是模型能否发现题目条件不足。

更强的模型应回答:无法唯一确定,小偷可能是B或C。

GPT-5.5成功发现了陷阱。

DeepSeek-V4的直观感受是:它的思考过程非常非常长。

GPT-5.5十几秒便得出答案,而四分钟后DeepSeek-V4仍在运行。不过,V4最终也给出了正确答案,结果虽好,但过程较慢。

第二题,我们使用数字竞赛题测试CoT的思考上限,重点比拼两模型的数学逻辑推理与思考模式效能。

鉴于DeepSeek-V4宣称在STEM和竞赛型代码上比肩顶级闭源模型,我们考察V4和GPT-5.5在面对人类智力难题时,谁的推导更严密,幻觉更少。

我们选取了去年国际奥数决赛的一道真题:

(题目原文及链接保留不变,此处省略具体题目和链接内容)

在进阶思考深度下,GPT-5.5得到了正确答案,全程耗时2分51秒,思路清晰,输出格式美观。

在专家模式下开启思考,DeepSeek在思考过程结束前未给出明确输出。点击继续后,DeepSeek也发现了答案线索,并成功证明了这道IMO决赛真题。

可见,DeepSeek的推理能力和思考深度的确进步明显。

接下来,测试两模型的可视化能力:生成一个介绍人类起源和生物进化的HTML网页,要求图文并茂、易于理解。DeepSeek此次效果更佳,而GPT-5.5生成格式有些问题。

接着,要求两模型开发一个游戏网站,测试它们在动态图形、3D空间交互、碰撞检测和整体游戏架构上的能力。GPT-5.5很快完成任务,而DeepSeek-V4思考时间不长,但最终效果不如GPT-5.5,这一轮V4完败。

GPT-5.5:更像人了

此外,我们还搜集了一批AI大V和开发者对GPT-5.5的实测。

发布前,多位早期测试者已使用两周,结论一致:在编程、推理、长任务三个维度上,GPT-5.5全面登顶。

但真正令人兴奋的不是它更聪明,而是它更“像个人”:更贵的单价反而更省钱;更强的能力反而更会聊天;更高的自主性反而更听话。这次,OpenAI拆掉了旧发动机,直接给模型装上了“灵魂”。

Codex,直接淘汰“AI辅助编程”!

GPT-5.5的Codex模式直接淘汰了“AI辅助编程”。一位测试者扔给它一份完整的PRD文档,只说了一个词:“go”。几小时后,GPT-5.5便独立完成了整个项目构建。

更关键的是它的工作方式:它并非写完等人审,而是自己形成闭环——构建、视觉检查、发现问题、再迭代。这种自主性在其他模型上从未见过。

OpenAI研究员Noam Brown反馈,有了GPT-5.5,他的IC效率空前高,能像专业人士一样编写CUDA kernels,并依靠它运行研究实验。

后端开发、复杂Bug定位、大型代码库理解,GPT-5.5全面领先。有测试者让它用Svelte写一个自定义虚拟滚动实现,完美调用了所有bind原语。他评价:“这是我见过AI写出的最好的代码。”

在世界上最难的电子表格任务上,GPT-5.5实现新SOTA:速度最快、效率最高。

更厉害的是,GPT-5.5的持续研究能力已有迹象表明AI能胜任研究合作者——人类只需提出构想,全程无需写一行代码,GPT-5.5全部自主完成,甚至可自主运行31小时!

这意味着,AI正从“助理”变为“雇佣兵”。你只需给它终点,不必告诉它怎么走。

不过短板同样存在:前端设计仍不如Opus,响应速度不如Opus 4.6 Fast;复杂布局有时直接扔一张图了事,SVG硬编码会把自己绕晕;而且变得过度谨慎,动不动就问问题,稍有不慎就会触发“疯狂写单元测试”模式。总结:能力很强,但需要驯服。

沃顿商学院教授Ethan Mollick测试了GPT-5.5数周,得出结论:目前,GPT-5.5 Pro就是解决复杂问题的最佳模型。

更贵的模型,反而更便宜

GPT-5.5定价比5.4高。纸面上看不是好消息,但一位深度测试两周的开发者给出关键数据:达到GPT-5.4同等智能水平,GPT-5.5消耗的Token显著更少。综合下来,整体运行成本反而更低。“这可能比大多数人意识到的更重要。”

在Artificial Analysis指数的成本性能前沿上,GPT-5.5模型系列占据绝对主导地位。

速度端的提升更直观。早期测试者实测数据:GPT-5.5 Thinking Heavy模式,2分钟出的答案比GPT-5.4 Thinking Heavy花10分钟出的更好;GPT-5.5 Pro,8分钟的输出质量超过GPT-5.4 Pro花30分钟的结果。同样任务,时间砍了80%,质量还提升了。

Token效率之所以重要,因为它直接决定了AI Agent的经济可行性。一个每跑一次任务就烧掉几美元Token的模型,无法大规模部署到真实工作流。现在,GPT-5.5把这个门槛压低了一大截。

为什么GPT-5.5感觉不一样?

GPT-5.5建立在一次新的预训练之上。预训练是那种规模庞大、成本高昂的基础训练过程:在指令微调、工具使用和推理脚手架等后训练步骤加入之前,它先教会基础模型底层模式。后训练可以让模型更听话、更安全或更具智能体能力;但一次新的预训练,则可能改变模型本身的“重心”。

其实,OpenAI已通过GPT-5.4证明自己重新具备了强竞争力。GPT-5.4使用的仍然是早期GPT-5.x模型的同一套预训练。而现在发布了一个新的预训练。

此外,有国外科技媒体报道,GPT-5.5(代号Spud)“将是更智能的预训练模型”。现在,GPT-5.5正式发布,更贵反而更便宜,编程效果又好得出奇,推测它可能只是新预训练模型的初始强化学习Checkpoint。

奥特曼直接摊牌:GPT-5.5还会快速迭代。这说明OpenAI想继续向Anthropic施压:它押注的是,回应Claude的下一步,不只是围绕同一个底座做更好的脚手架,而是换一个不同的基础模型。

GPT-5.5就是GPT-5.5,但无人关心了

整个GPT-5.5发布中,最重要的成果可能是前所未有的网络安全能力:在一次网络攻防评估中,GPT-5.5在10次试验中有1次成功接管了模拟的企业网络,预算为1亿个token。此前,唯一能完成此任务的模型Claude Mythos,在10次尝试中成功了3次。Opus 4.6和Opus 4.7都做不到,GPT-5.4、GPT-5.3-Codex也做不到。

在衡量AI长时间跨度内经营业务能力的Vending-Bench Arena中,GPT-5.5再次击败Opus 4.7。而Opus 4.7依旧延续Opus 4.6的策略:撒谎赖账,拒不退货;GPT-5.5赢得堂堂正正。这说明GPT的对齐和能力同步提升,堪称“德才兼备、文武双全”。

GPT终于通关《宝可梦》!

GPT-5.4曾在一个循环迷宫里反复读档,像个陷入算法死循环的孤魂。而GPT-5.5不仅第一次尝试就轻松打赢劲敌,甚至展现出真正的“人类逻辑”——它会主动拿取道具、购物、规划路径,而不是暴力试错。在网友定制的超级难度的《宝可梦 水晶》中,GPT-5.5依旧轻松通关。

别被版本号里的“+0.1”骗了,GPT-5.5是一次重大更新。

诡异的是,对99%的用户而言,这些都不重要。最重要的亮点在于能力范围。GPT-5.5弥补了GPT系列在某些方面的不足:基于现有上下文进行设计、iOS/原生Mac应用、安全等方面。

这次发布有一种心理上很奇怪的地方。GPT-5感觉像一次相变,因为它抬高了“可能性”的天花板。GPT-5.3-Codex感觉像一次相变,因为它让长时间运行的自主工程在操作层面变得真实可用。GPT-5.5并非如此。它更像是把粗糙边缘磨平,让薄弱类别不再那么弱,让模型在更多真实世界的混乱工作中变得更有用。它并不完美,没有突然变成最好的设计模型,它不是魔法。如果你想认真完成重要工作,你仍然需要给它明确目标、真实上下文和验证方式。

对大多数人、在大多数任务上,GPT-5.5与其说是一种全新能力,不如说是让现有能力变得更宽、更安全、更可靠。它把这个模型补圆了。


————  END  ————


灵思极智旗下“极智系列”三款AI智能应用

图片




灵思极智让AI为各行业赋能
打造[超级企业]+[超级个体]
“让人回归人的价值”!
用灵思,创极智!点击关注“灵思极智”
图片


关注后,两步置顶服务号,可第一时间收到灵思极智推文!


图片

【声明】内容源于网络
0
0
灵思极智
AI领域超级创造工厂,用灵思,创极智!
内容 176
粉丝 0
灵思极智 AI领域超级创造工厂,用灵思,创极智!
总阅读135
粉丝0
内容176