
【新智元导读】从「预测下一个 Token」到「预测下一个物理状态」,智源大会上,智源研究院为世界模型正本清源,立起了一条通往物理 AGI 的清晰路标。
当 AI 从赛博世界走向物理世界,开始深度介入日常生活,其下一程路径成为业界焦点。在 2026 智源大会上,全球顶尖 AI 专家汇聚一堂,给出了明确答案。
作为全球人工智能领域的顶级盛会,智源大会自 2019 年举办以来已连续成功召开八届,累计汇聚 14 位图灵奖得主及千余位产学研专家,吸引全球超 1000 万人次参与,被誉为定义 AGI 时代发展方向的"AI 春晚”。
智源定义世界模型四大分类
世界模型被视为继大语言模型后最具变革性的战略机遇,是通往物理世界通用人工智能(Physical AGI)的必由之路。当前业界虽已达成战略共识,但技术路线仍处于多元探索阶段,从“预测下一个词元”向“预测下一个物理状态”的范式跃迁正成为主流方向。
智源研究院院长王仲远指出,人工智能正加速从数字世界迈向物理世界。世界模型作为下一代基座模型,以“预测下一物理状态”为核心,不仅能感知、理解并推理真实物理世界的时空规律与常识,涵盖全模态数据,更具备主动交互能力,支撑各类物理下游应用。
作为国内最早布局世界模型的科研机构,智源研究院早在 2023 年便由杨立昆(Yann LeCun)阐述新一代概念,并于随后几年连续发布悟界·Emu3 及 Emu3.5 等全球首个原生多模态世界模型。2026 年,基于从“悟道”到“悟界”的技术传承,智源正式推出悟界·Physis-v0.1。
智源将现有世界模型技术路线划分为四类:
以语言为中心:如 VLM、VLA,仅在文本空间预测,无法理解物理后果;
以像素为中心:如 Sora 等视频生成模型,仅学习像素描述的世界;
以三维结构为中心:如 3D 重建模型,几何结构不等同于物理状态;
以视觉表征为中心:如 JEPA 系列,视觉嵌入演化不等于物理规律演化。
针对上述局限,智源核心布局体现为悟界·Physis-v0.1 与研发中的悟界·RoboBrain Orca。
悟界·Physis-v0.1:通用物理基座
悟界·Physis-v0.1 是全球首款通用世界基座模型,旨在重塑 AI 物理感知与推演的底层体系。该模型打破传统垂类场景瓶颈,通过独创的物理隐空间表征替代像素级预测,搭载专属物理状态编码器,将视频、深度、3D 点云及力触反馈等全模态信息统一转化为标准化隐空间物理状态(Latent State)。
模型支持 50+ 复杂物理场景长程推理,具备物理一致性、动作因果性、长程可推演性及通用泛化性四大核心能力,可广泛应用于严肃工业、具身智能及科学研究等真实场景。
悟界·RoboBrain Orca:具身智能大脑
悟界·RoboBrain Orca 是以“预测下一个物理状态”为核心的具身大脑,构建“统一表征—建模—预测—交互”完整闭环。它融合大量第一人称视角(Ego-centric)交互数据,强化世界模型的具身表征,有效提升少样本与跨场景泛化能力。
该模型具备统一表征、因果推演、模态解码三大核心能力,实现语言思考、视觉预测与动作决策的“想、看、动”三位一体,赋能具身智能机器人在物流、服务等真实环境中长期自主作业。
从悟道到悟界:构建通往物理 AGI 的完整路径
本届大会全面展示了智源“从悟道到悟界”的技术跃迁成果。从让 AI“学会语言”的悟道系列,到让 AI“懂世界”的悟界系列,智源已构建起通往物理 AGI 的完整技术路径,并在核心赛道实现原创领跑。
悟界·Emu3.5:多模态统一新范式
此前登上 Nature 正刊的悟界·Emu3 已完成关键升级。悟界·Emu3.5 从“预测下一个词元”扩展至跨视觉与语言序列的“下一状态预测”,以纯自回归框架原生实现文本、图像、视频的统一理解与生成。其内置时空关系与因果逻辑建模能力,攻克了生成内容违背物理规则的行业痛点,兼具顶级学术价值与产业支撑价值。
悟界·Brainμ1.0:神经科学通用基座
悟界·Brainμ1.0 是全球首个理解与生成统一的多模态神经科学大模型。它将人类及动物跨物种的全模态脑信号(EEG、fMRI 等)统一编码为标准 Token,并与语言、图像等通用模态对齐,有效解决神经科学领域数据孤岛问题。
依托全球最大的 AI-Ready 神经科学数据平台悟界·BrainToken(数据量突破万亿级别),该模型可降低神经疾病诊断成本,辅助筛查阿尔兹海默症等疾病。目前,相关成果已支撑“记忆 - 睡眠”调控机制研究登刊 Science。
悟界·OpenComplex2.5:AI 驱动药物发现
悟界·OpenComplex2.5 是可泛化、物理真实的下一代药物发现模型,重点解决固有无序蛋白(IDP)动态构象解析难题。通过端到端全原子分布建模,该模型精准捕捉 IDP 灵活多变的构象状态,覆盖口袋识别、反向筛选、结构预测和亲和力预测四个关键步骤,为神经退行性疾病等难成药靶点研究提供新路径。
大脑之外:AI 如何长出“手脚”
如果说世界模型赋予了 AI“常识”,那么智能体则让 AI 长出了“手脚”。智源在现场展示了真实落地的“智能体矩阵”:
BAAI Cardiac Agent:心脏辅助诊断
全球首个面向心脏磁共振的辅助诊断智能体,依托安贞医院海量影像 - 文本数据,构建一站式诊疗流程。其 Agent-Expert 系统复刻专家团队协作模式,诊断精确度达到顶尖医生水平(AUC 超 0.93),推动优质心血管医疗能力普惠。
AREX:自主科学研究智能体
面向科学发现的自主研究智能体,致力于推动 AI 从模仿学习向自主学习跨越。AREX 可服务于文献调研、实验设计及论文撰写等科研全流程,大幅降低对人类参与的依赖,加速基础学科前沿问题的自主探索。
SoulAgent:个人专属智能体
采用全新自研架构,SoulAgent 实现 Token 成本节省 30%、资源占用降低 80%。基于用户画像和技能自进化,它能持续成长为用户的专属数字专家,满足个性化服务、长期记忆及安全隐私需求,解决通用助手不懂用户习惯的痛点。
生物安全风险发现智能体
智源首次打通“计算机模拟推演”与“真实实验验证”的干湿实验闭环。该系统通过主动模拟攻击者行为,验证了 AI 智能体绕过生物安全筛查获取有害蛋白序列的风险,将生物安全防控从“事后补救”转为“事前演练”。
上述矩阵表明,AI 正真正进入医疗、科研、教育及安全等真实场景,成为可信赖的数字化生产力。
全球 AI 顶流聚首:共议未来图景
2026 智源大会汇聚了谷歌、Meta、英伟达等全球顶尖科技企业,以及阿里、腾讯、智谱等中国核心创新力量。两位图灵奖得主 Whitfield Diffie 和 Andrew Barto 发表了主题报告。
Whitfield Diffie 在《护 AI 智能体之安,御 AI 智能体之险》演讲中指出,未来应开发形式化方法以提升程序可靠性,并强调当前对智能体的资源访问限制(Confinement)仍显不足。
Andrew Barto 在《重新发现强化学习》中,将强化学习本质归结为“控制、搜索与联想记忆”的三位一体。他强调深度强化学习与大脑奖励系统的结合指明了下一步方向,并警示需警惕奖励信号设计中的风险。
在播客对话环节,智源研究院理事长黄铁军与阿里云创始人王坚围绕“总有人比时代早十年”展开讨论,探讨了中国大模型从跟随到原创范式的跃迁,以及 Agent 时代人与 AI 共存的未来思考。
在“重构世界”圆桌环节,来自清华、小米、南洋理工大学等机构的领军者深入交流。嘉宾们一致认为,超级模型与智能体系统将释放更大势能,多模态与世界模型的成熟将推动 AI 真正从数字空间走向物理世界。
尾声
随着大语言与多模态技术日趋成熟,人工智能发展重心正全面进入世界模型时代。从“悟道”到“悟界”,智源研究院通过持续的技术突破,厘清了从“预测下一个 Token"到“预测下一个物理状态”的范式跃迁路径,为行业树立起通往物理世界通用人工智能的清晰路标。
当 AI 真正学会理解并交互于我们赖以生存的物理世界,一个由世界模型驱动的智能新纪元,正从智源大会这一全球 AI 创新风向标上,加速照进现实。



