新智元报道

【导读】你此刻享有的清洁饮水、电力供应及医疗保障,在人类历史长河中实属罕见。而精准计算出这一概率分布的 Claude Opus 4.8,日前已超越 GPT-5.5,登顶全球 AI 模型榜首。
若在历史上曾生活过的 1170 亿人中随机“投胎”,大概率会成为一名 1650 年以前出生的文盲农民,且寿命难逾 15 岁。
得出这一结论的并非历史学家,而是人工智能。沃顿商学院教授 Ethan Mollick 近期在社交平台发布的一条推文引发广泛关注。
该网站将人类十几万年的命运量化为一系列概率数据。从文献检索、模型构建到代码编写及界面优化,全流程均由 Claude Opus 4.8 独立完成,未涉及任何人工干预。
Prompt:assume a universal veil of ignorance and you could be born as any human who has ever lived in history, what are the most likely socioeconomic conditions and locations that you would be born in, give the top 10 by percentage chance. This should be sourced. do research as needed
1170 亿人的生死贫劳被 AI 算尽
该网站名为「The Veil of History」(历史的无知之幕),灵感源自哲学家罗尔斯的思想实验:假设个体在出生前不知晓自身的阶层、种族或国籍,将如何设计社会制度。
Mollick 利用 Opus 4.8 将这一概念扩展至整个人类历史尺度。算法依据各时代实际出生人口进行加权,而非简单按世纪平均分配。
数据显示,人类历史累计出生约 1170 亿人。其中约 81% 出生于 1650 年之前,约 94% 出生于 1900 年之前。
网站将 1170 亿人压缩为一张包含 100 个小人的方格图。在“时代”维度下,绝大多数小人集中于工业革命之前;越接近现代,分布越稀疏,1900 年以后出生者寥寥无几。
统计结果表明,历史上的大多数人是在田间劳作的普通农民。网站列出的“十种最可能的人生”中,前排均为农耕时代的无名之辈。
这些没有名字、未在史书中留下记载的普通人,构成了人类历史的主体。相比之下,帝王将相的总和在概率池中占比微乎其微。
加权分析显示,极端贫困是历史常态,识字属于例外,能活至成年本身即是一场概率博弈。
交互式模拟:随机抽取一条历史人生
除了统计数据,网站最具冲击力的功能是“抽一条命”按钮。点击后,系统基于完整概率分布随机生成一个具体的出生设定,涵盖年代、地区、阶层、生活条件及最终结局。
典型结果显示:公元前 6400 年左右,一名东亚河谷的女童,农民身份,极度贫困,不识字,无电力与自来水,终年约 21 岁。
多次尝试会发现,结果往往高度相似,反复落入类似的艰难境遇。
此外,网站还集成了基于 D3 和 Natural Earth 绘制的交互式世界地图。通过时间滑块可遍历 12 个历史时期,直观展示人口重心的变迁:大部分时间集中于亚洲,直至近现代才逐渐向欧美转移。
纵观人类史,能够享有清洁饮水、医疗服务及子女高存活率的人生屈指可数,更遑论电力普及、城市化生活及现代中等收入水平。
现代人习以为常的生活条件,置于整个人类时间轴上审视,实为极小概率的异常值。
单一大模型分饰四角:从数据研究到情感叙事
该项目的高质量交付远超简单的代码生成。若由传统团队操作,需数据分析师清洗人口曲线、历史研究员考证文献、UX 设计师绘制原型、前端工程师编写 D3 代码,耗时数周方可上线。
Claude Opus 4.8 则独立承担了四个关键角色,高效完成了全流程。
严谨的数据研究员
为计算 1170 亿总人口及时代分布,模型交叉引用了人口资料局 2022 年报告、麦迪逊项目数据库、HYDE 数据集及联合国人口展望数据,构建了各时代各地区的人口份额矩阵。
其核心算法逻辑为:将每个时代的全球出生总数乘以该地区在该时代的人口占比,并逐代累加。
数学建模专家
针对缺乏“按地区累计出生人数”直接统计数据的难题,模型自主采用蒙特卡洛方法处理不确定性。经过 4000 轮模拟,对古老且数据匮乏的年代赋予更大噪声权重,最终输出中位数及 5% 至 95% 的置信区间。
前端架构师
为实现单页应用中流畅的滚动叙事与数据状态同步,Opus 4.8 自主设计了符合现代审美的滚动结构,解决了海量数据点在浏览器端的渲染及图表动态响应问题,确保动效顺滑无卡顿。
顶级文案与情绪导演
模型首先铺陈宏大的历史背景,随即聚焦个体命运的渺小。通过极具痛感的短句,将冰冷的统计学数据转化为直击人心的情感体验。这种调动人类情绪的能力,被视为 AI 进化的重要标志。
Claude Opus 4.8 登顶全球 AI 榜单
支撑上述项目的 Opus 4.8 模型,近日在 Artificial Analysis 榜单中以 61.4 分反超 GPT-5.5,重夺榜首。这是自今年 4 月 OpenAI 占据首位以来,Claude 系列首次回归第一。
在被誉为“人类最后考试”的 Humanity's Last Exam 基准测试中,Opus 4.8 得分为 45.7%,领先第二名 1 个百分点。在前沿物理基准 CritPt 上,其表现亦优于 Gemini 3.1 Pro。
编程能力方面,在高难度的 SWE-Bench Pro 测试中,Opus 4.8 得分 69.2%,较 GPT-5.5 的 58.6% 高出近 10 个百分点。
在模拟真实职场任务的 GDPval-AA 基准中,Opus 4.8 获得 1890 Elo 分,领先 GPT-5.5 约 121 分,隐含胜率约 67%。其完成复杂任务的平均交互轮数降至 38 次,展现出强大的自主推理与试错优化能力。
AI 竞争新维度:智能与边界的平衡
近期 AI 榜首之争激烈,GPT-5.5 与 Opus 4.8 交替领先,代差缩短至以周计。然而,评判标准正发生深刻变化:当模型被视为独立 Agent 时,不仅需具备高智商,更需明确自身能力边界。
Anthropic 表示,比 Opus 更强的 Mythos 级模型将于数周内开放。Opus 4.8 的成功在于同时提升了智能水平与诚实度(即对边界的认知)。
该“投胎模拟器”网站仅是其强大能力的缩影,预示着 AI 在独立完成任务方面的巨大潜力。
参考资料:
Artificial Analysis 官方数据
Ethan Mollick 社交媒体公开信息
The Veil of History 项目源码及演示
编辑:摩西



