过去这小半年,Anthropic 这家公司一直在干一件事。
到处劝人。
劝同行慢一点,劝整个行业给前沿 AI 装个刹车踏板。
逢人就警告,这东西再这么练下去要出事,搞不好哪天就开始自己升级自己,到时候谁也拦不住。
就好像他生怕整个武林走火入魔,然后挨家挨户上门苦劝大家封功收手。
可你往前推,在今年四月,他曾掏出来一个模型,叫 Claude Mythos。
还用这玩意儿扫描了一批全球最关键的代码库。
结果它跟天生开了透视挂一样,在每一个主流操作系统和主流浏览器都找到了漏洞,一共几千个。
这一下,整个行业地震了,华尔街上一票网络安全公司的股票,集体往下出溜。
Anthropic 自己也被吓得一激灵。
于是,它做了一个特别有觉悟的决定,这个模型不面向公众公开。
只发给了一小撮人,组了个叫玻璃翼蝶计划的局,有亚马逊,苹果,谷歌,微软等一帮大厂和开源组织。
你看,多负责任,多有边界感,简直是 AI 届的道德标兵。
然后呢?
两个月后,这位道德标兵一回头,把模型正式公开发布了。
四月还痛心疾首太危险不能公开,六月就喜笑颜开来来来街坊邻居都有份。
要论疯批,还得是你啊。
但来都来了,发了个史上最强模型,朋友圈九宫格庆祝一下。
皆大欢喜,多好。
但他们偏不,非要把同一个东西,劈成了两半。
Fable 5 和 Mythos 5,翻译过来就是寓言和神话。
它俩是同一个底层模型,区别只有一个,Mythos 5 是完整版,还是给一小撮人用。
Fable 5 是公开版,但是在网络安全,生物和化学这几个领域,它会主动拦截你的问题,然后悄悄降级,换成上一代的 Opus 4.8 来回答你。
分级降智可以理解,但是非常容易触发,体验上非常差。
而且,在订阅计划里只给了 12 天的限时体验。
后面就只能 API 按量走,理由是算力不够,以后算力够了才会上订阅,但谁知道呢?
真的,槽点实在太多了。
虽然官方给了很多酷炫的案例,但咱们还是要实测一下的,实践才是检验真理的唯一标准。
话不多说,下面边测边聊。
实测
首先请出的,是咱们独家保留节目,3D 火山喷发模拟。
我录了个视频。
没有抽卡,一次出的效果,但是推理速度巨慢。
效果确实第一梯队,火山的质感,粒子烟雾和地面震动都模拟的很完美。
第二个是鞭炮实验模拟。
没有抽卡,一次出的效果。
整体效果跟之前实测过的 Opus 模型差不多,但烟雾和碎屑的细节要更真实一些。
第三个是 Three.js 官方出的测试,我觉得非常有意思,还跟官方互动过。
提示词是这样的。
请编写完整的 Three.js 代码来构建一个场景,其中包括迈克尔·杰克逊(Michael Jackson)、悲伤蛙佩佩(Pepe the Frog)、和埃隆·马斯克(Elon Musk)共同表演《颤栗》(Thriller)的编舞。请致力于追求极致的视觉完美,提供细节丰富的动画、逼真的光照、高质量的渲染以及整体的电影级质感,注意不要太暗。
依旧是没有抽卡,一次出的效果。
虽然人物的脚部有点问题,但从整体完成度来说,确实是超越了之前全部模型的表现。
不光 8 个标志性的舞蹈段落都有体现,而且舞者的可动关节也很多。
更惊喜的是,它还自带了音效,非常魔性。
第四个,我让它在网页里复刻一个 MacOS 系统。
依旧是一次出的效果,直接看视频吧。
这应该是我目前见过最完整的实现。
从开机动画,到锁屏,到桌面,再到 Dock 栏鼠标悬停放大的波浪效果,一整套全了。
不光有 13 个可以操作功能细节的应用,而且菜单的窗口可以拖拽和调整大小。
甚至,他还有功夫埋进去了几个彩蛋。
看到产品经理发来的短信说,这个需求很简单,怎么实现我不管的时候。
我真的绷不住的笑出声了。
还没完。
Fable 5 模型在视觉任务上的表现也拉满了,官方拿它通关了宝可梦,杀戮尖塔和异星工厂等游戏。
咱们来让他复刻下布局最复杂的前端页面之一,淘宝首页。
我录制了一段视频,扔了进去,让它 1:1 复刻。
效果是这样的。
除了图标和图片它没法 1:1 还原,其他的还原效果还是相当不错的。
再测一个写作的,还是咱们的保留节目,直接看效果。
有点意思,这段文字我反复读了几遍。
下面是它自己的解释。
果然埋进去了很多套路,确实有点东西。
官方放出了几个实测案例,我觉得有必要提一下,因为一个比一个离谱。
先说编程,Stripe 这家公司,有一个 5000 万行的 Ruby 项目。
他们用 Fable 5,一天之内就完成了整个代码库的迁移。
这事儿如果靠开发团队自己干,至少要连轴干两个多月。。
也就是说,需要数月完成的工程量,被直接压缩到了天级别。
这个世界果然还是魔幻的。
然后是药物设计,Anthropic 内部的蛋白质设计专家用 Mythos 5,把药物设计流程的部分环节加速了 10 倍。
再到分子生物学,盲测对比中 80% 的情况下,科学家更喜欢 Mythos 5 提出的假说。
其中有个关于大肠杆菌蛋白新机制的假说,后来被一个独立研究同一问题的实验室所证实。
最后是基因组学,Mythos 5 自己干了一周多的工作,几乎全程自主。
整合了横跨 138 个动物物种,数百万细胞的单细胞数据,顺手还设计并训练了一个自定义的机器学习模型。
在仅有高层级的人类输入的情况下,最后训练出的模型超越了近期发表于《Science》的一个模型,体积只有后者的百分之一。
这都不是魔幻了,这是玄幻。
最后,咱们来快速过一下跑分和价格。
在编程,办公知识工作,多模态理解,空间推理,通用推理,工具调用,电脑操作,法律,生物,网络安全和医疗等方面。
全部刷新纪录。
价格也是真的贵,输入每百万 Token 10 美元,输出每百万 Token 50 美元。
虽然说比之前 Mythos Preview 便宜了一半,但还是比永久降价之后的 DeepSeek-V4—Pro 贵了 50 倍。
现在,你知道为什么说 DeepSeek 是大善人了吧。
尾声
最后,说点实在的。
抛开所有的惊叹,所有的别扭,经过实测咱们得出了结论。
对于日常的工作,这模型的能力显然是溢出的。
Fable 5 这种东西,是给那些前沿硬核,把人逼到墙角的活儿准备的。
你要是拿它写个朋友圈文案,相当于开火箭去送外卖。
所以,日常该用啥用啥,千万别花冤枉钱。
真碰上硬活儿的时候,再把这家伙请出来。
至于价格,你别急。
这两年的剧本你又不是没看过,每次前沿模型一出来,价格都贵的离谱。
没过几个月,国产模型就会迎头赶上,再把价格砍下来。
所以,不妨让子弹再飞一会儿。
好戏还在后头。
既然你看到这里了,如果觉得不错,请帮我一键三连,转发给你的朋友,这真的对我很重要。
另外如果想第一时间收到推送,请将本公众号加个星标🌟
谢谢你看我的文章,祝你有财安康,我们下期见。

