2026智源大会：智源研究院为世界模型「正本清源」- 大数跨境

首页

2026智源大会：智源研究院为世界模型「正本清源」

新智元

2026-06-12

【新智元导读】从「预测下一个 Token」到「预测下一个物理状态」，智源大会上，智源研究院为世界模型正本清源，立起了一条通往物理 AGI 的清晰路标。

当 AI 从赛博世界走向物理世界，开始深度介入日常生活，其下一程路径成为业界焦点。在 2026 智源大会上，全球顶尖 AI 专家汇聚一堂，给出了明确答案。

作为全球人工智能领域的顶级盛会，智源大会自 2019 年举办以来已连续成功召开八届，累计汇聚 14 位图灵奖得主及千余位产学研专家，吸引全球超 1000 万人次参与，被誉为定义 AGI 时代发展方向的"AI 春晚”。

智源定义世界模型四大分类

世界模型被视为继大语言模型后最具变革性的战略机遇，是通往物理世界通用人工智能（Physical AGI）的必由之路。当前业界虽已达成战略共识，但技术路线仍处于多元探索阶段，从“预测下一个词元”向“预测下一个物理状态”的范式跃迁正成为主流方向。

智源研究院院长王仲远指出，人工智能正加速从数字世界迈向物理世界。世界模型作为下一代基座模型，以“预测下一物理状态”为核心，不仅能感知、理解并推理真实物理世界的时空规律与常识，涵盖全模态数据，更具备主动交互能力，支撑各类物理下游应用。

作为国内最早布局世界模型的科研机构，智源研究院早在 2023 年便由杨立昆（Yann LeCun）阐述新一代概念，并于随后几年连续发布悟界·Emu3 及 Emu3.5 等全球首个原生多模态世界模型。2026 年，基于从“悟道”到“悟界”的技术传承，智源正式推出悟界·Physis-v0.1。

智源将现有世界模型技术路线划分为四类：

以语言为中心：如 VLM、VLA，仅在文本空间预测，无法理解物理后果；
以像素为中心：如 Sora 等视频生成模型，仅学习像素描述的世界；
以三维结构为中心：如 3D 重建模型，几何结构不等同于物理状态；
以视觉表征为中心：如 JEPA 系列，视觉嵌入演化不等于物理规律演化。

针对上述局限，智源核心布局体现为悟界·Physis-v0.1 与研发中的悟界·RoboBrain Orca。

悟界·Physis-v0.1：通用物理基座

悟界·Physis-v0.1 是全球首款通用世界基座模型，旨在重塑 AI 物理感知与推演的底层体系。该模型打破传统垂类场景瓶颈，通过独创的物理隐空间表征替代像素级预测，搭载专属物理状态编码器，将视频、深度、3D 点云及力触反馈等全模态信息统一转化为标准化隐空间物理状态（Latent State）。

模型支持 50+ 复杂物理场景长程推理，具备物理一致性、动作因果性、长程可推演性及通用泛化性四大核心能力，可广泛应用于严肃工业、具身智能及科学研究等真实场景。

悟界·RoboBrain Orca：具身智能大脑

悟界·RoboBrain Orca 是以“预测下一个物理状态”为核心的具身大脑，构建“统一表征—建模—预测—交互”完整闭环。它融合大量第一人称视角（Ego-centric）交互数据，强化世界模型的具身表征，有效提升少样本与跨场景泛化能力。

该模型具备统一表征、因果推演、模态解码三大核心能力，实现语言思考、视觉预测与动作决策的“想、看、动”三位一体，赋能具身智能机器人在物流、服务等真实环境中长期自主作业。

从悟道到悟界：构建通往物理 AGI 的完整路径

本届大会全面展示了智源“从悟道到悟界”的技术跃迁成果。从让 AI“学会语言”的悟道系列，到让 AI“懂世界”的悟界系列，智源已构建起通往物理 AGI 的完整技术路径，并在核心赛道实现原创领跑。

悟界·Emu3.5：多模态统一新范式

此前登上 Nature 正刊的悟界·Emu3 已完成关键升级。悟界·Emu3.5 从“预测下一个词元”扩展至跨视觉与语言序列的“下一状态预测”，以纯自回归框架原生实现文本、图像、视频的统一理解与生成。其内置时空关系与因果逻辑建模能力，攻克了生成内容违背物理规则的行业痛点，兼具顶级学术价值与产业支撑价值。

悟界·Brainμ1.0：神经科学通用基座

悟界·Brainμ1.0 是全球首个理解与生成统一的多模态神经科学大模型。它将人类及动物跨物种的全模态脑信号（EEG、fMRI 等）统一编码为标准 Token，并与语言、图像等通用模态对齐，有效解决神经科学领域数据孤岛问题。

依托全球最大的 AI-Ready 神经科学数据平台悟界·BrainToken（数据量突破万亿级别），该模型可降低神经疾病诊断成本，辅助筛查阿尔兹海默症等疾病。目前，相关成果已支撑“记忆 - 睡眠”调控机制研究登刊 Science。

悟界·OpenComplex2.5：AI 驱动药物发现

悟界·OpenComplex2.5 是可泛化、物理真实的下一代药物发现模型，重点解决固有无序蛋白（IDP）动态构象解析难题。通过端到端全原子分布建模，该模型精准捕捉 IDP 灵活多变的构象状态，覆盖口袋识别、反向筛选、结构预测和亲和力预测四个关键步骤，为神经退行性疾病等难成药靶点研究提供新路径。

大脑之外：AI 如何长出“手脚”

如果说世界模型赋予了 AI“常识”，那么智能体则让 AI 长出了“手脚”。智源在现场展示了真实落地的“智能体矩阵”：

BAAI Cardiac Agent：心脏辅助诊断

全球首个面向心脏磁共振的辅助诊断智能体，依托安贞医院海量影像 - 文本数据，构建一站式诊疗流程。其 Agent-Expert 系统复刻专家团队协作模式，诊断精确度达到顶尖医生水平（AUC 超 0.93），推动优质心血管医疗能力普惠。

AREX：自主科学研究智能体

面向科学发现的自主研究智能体，致力于推动 AI 从模仿学习向自主学习跨越。AREX 可服务于文献调研、实验设计及论文撰写等科研全流程，大幅降低对人类参与的依赖，加速基础学科前沿问题的自主探索。

SoulAgent：个人专属智能体

采用全新自研架构，SoulAgent 实现 Token 成本节省 30%、资源占用降低 80%。基于用户画像和技能自进化，它能持续成长为用户的专属数字专家，满足个性化服务、长期记忆及安全隐私需求，解决通用助手不懂用户习惯的痛点。

生物安全风险发现智能体

智源首次打通“计算机模拟推演”与“真实实验验证”的干湿实验闭环。该系统通过主动模拟攻击者行为，验证了 AI 智能体绕过生物安全筛查获取有害蛋白序列的风险，将生物安全防控从“事后补救”转为“事前演练”。

上述矩阵表明，AI 正真正进入医疗、科研、教育及安全等真实场景，成为可信赖的数字化生产力。

全球 AI 顶流聚首：共议未来图景

2026 智源大会汇聚了谷歌、Meta、英伟达等全球顶尖科技企业，以及阿里、腾讯、智谱等中国核心创新力量。两位图灵奖得主 Whitfield Diffie 和 Andrew Barto 发表了主题报告。

Whitfield Diffie 在《护 AI 智能体之安，御 AI 智能体之险》演讲中指出，未来应开发形式化方法以提升程序可靠性，并强调当前对智能体的资源访问限制（Confinement）仍显不足。

Andrew Barto 在《重新发现强化学习》中，将强化学习本质归结为“控制、搜索与联想记忆”的三位一体。他强调深度强化学习与大脑奖励系统的结合指明了下一步方向，并警示需警惕奖励信号设计中的风险。

在播客对话环节，智源研究院理事长黄铁军与阿里云创始人王坚围绕“总有人比时代早十年”展开讨论，探讨了中国大模型从跟随到原创范式的跃迁，以及 Agent 时代人与 AI 共存的未来思考。

在“重构世界”圆桌环节，来自清华、小米、南洋理工大学等机构的领军者深入交流。嘉宾们一致认为，超级模型与智能体系统将释放更大势能，多模态与世界模型的成熟将推动 AI 真正从数字空间走向物理世界。

尾声

随着大语言与多模态技术日趋成熟，人工智能发展重心正全面进入世界模型时代。从“悟道”到“悟界”，智源研究院通过持续的技术突破，厘清了从“预测下一个 Token"到“预测下一个物理状态”的范式跃迁路径，为行业树立起通往物理世界通用人工智能的清晰路标。

当 AI 真正学会理解并交互于我们赖以生存的物理世界，一个由世界模型驱动的智能新纪元，正从智源大会这一全球 AI 创新风向标上，加速照进现实。

【声明】内容源于网络

新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

内容 16234

粉丝 0

新智元智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

总阅读234.9k

粉丝0

内容16.2k