2026 年,AI 领域的核心焦点已转向世界模型。当 AI 不仅学会“思考”物理规律,更具备自主行动的“手脚”,其能力便从理论推演迈向真实世界的理解与执行。
本届被誉为"AI 春晚”的智源大会在北京中关村召开,核心议题正是世界模型。会上发布了两个重磅世界模型,多款模型迎来重大升级,并推出覆盖四大应用场景的 Agent 矩阵,旨在解决现实世界的实际难题。
北京智源大会由智源研究院主办,以“技术前沿、国际视野、青年人才”为特色。本届大会规格极高:现代数字安全体系奠基人 Whitfield Diffie 线下出席,探讨 Agent 时代的安全挑战;强化学习奠基人 Andrew Barto 深入剖析交互驱动智能的意义。
30 余位青年科学家、40 余位 AI 企业创始人及首席科学家、200 余位顶尖学者齐聚一堂。Meta、英伟达、哈佛、MIT 等国际机构,与阿里、腾讯、小米、清华、北大等国内核心创新力量同台交流,围绕世界模型、通用智能体、具身智能、AI 安全等前沿方向展开深度对话。
开幕式上,智源研究院院长王仲远发布 2026 年度进展报告,展示了基座大模型、智能体及基础软硬件生态的最新成果。
自 2018 年成立以来,智源研究院构建了从“悟道”到“悟界”的全栈大模型开源技术体系。截至目前,智源开源模型超 200 个,全球累计下载量突破 10 亿次,孵化了多家具有代表性的创新创业企业。
智源研判,人工智能正加速从多模态大模型向世界模型演进,从数字世界迈向物理世界。过去一年,智源系统性梳理了世界模型发展历程,提出四大技术分类,并正式介绍研发中的悟界·Physis。
世界模型:下一个 AI 范式
本次大会的最大亮点是全球首个通用世界基座模型——悟界·Physis-v0.1。该模型为 AI 装上了“物理引擎”,使其能够像物理引擎一样思考,预测动作在真实世界产生的后果,而非仅依赖语言数据的经验归纳。
悟界·Physis-v0.1 重塑了 AI 物理感知与推演的底层技术体系。它打破传统垂类场景瓶颈,通过物理隐空间表征替代像素级预测,实现了跨场景通用物理规律的强化学习。
该模型搭载专属物理状态编码器,可压缩视频、深度 RGB、3D 点云及力触反馈等全模态信息,统一转化为标准化隐空间物理状态。其具备物理一致性、动作因果性、长程可推演性及通用泛化性四大核心能力,支持 50+ 复杂物理场景的长程推理,广泛应用于严肃工业、具身智能及科学研究等领域。
另一款亮相模型是悟界·RoboBrain Orca,这是一款以下一个物理状态预测为核心的具身大脑。它构建了“统一表征—建模—预测—交互”的完整闭环,将 AI 能力从“预测下一个词元”升级为“预测下一个物理状态”。
悟界·RoboBrain Orca 具备统一表征、因果推演、模态解码三大能力,实现“想、看、动”三位一体。例如在执行“递可乐”指令时,它能同步完成语言推理(确认需求)、视觉预测(规划路径避开障碍)及动作决策(机械臂抓取),支撑机器人在物流、酒店服务等真实环境中的长期自主作业。
智源研究院是国内最早开展世界模型研究的机构。继 2024 年发布全球首个原生多模态世界模型悟界·Emu3(成果登刊 Nature 正刊)及 2025 年升级版的 Emu3.5 后,智源持续引领技术演进。
Emu3.5 进一步扩展至跨视觉与语言序列的“下一状态预测”,以纯自回归框架实现文本、图像、视频的统一理解与生成,内置时空关系与因果逻辑建模能力,兼具学术价值与产业支撑价值。
针对当前世界模型定义未统一的现状,智源将其划分为四类:以语言为中心(如 VLM)、以像素为中心(如 Sora)、以三维结构为中心(如 World Labs Marble)以及以视觉表征为中心(如 JEPA)。智源认为,真正的世界模型应能感知、推理真实物理状态,涵盖全模态数据,并具备主动交互能力。
此外,智源还发布了多项重要创新成果:
悟界·Brainμ1.0:全球首个理解与生成统一的多模态神经科学大模型。它将人类、猕猴、小鼠等跨物种的全模态脑信号统一编码为标准 Token,并与通用模态对齐,有效解决神经科学领域数据孤岛问题,辅助阿尔兹海默症等疾病诊断。该模型已支撑相关研究成果登刊 Science。
悟界·OpenComplex2.5:下一代 AI 驱动药物发现模型,重点解决固有无序蛋白(IDP)动态构象解析难题。该模型覆盖口袋识别、反向筛选、结构预测和亲和力预测四个关键步骤,为神经退行性疾病等难成药靶点研究提供新路径。
干活麻利的 Agent 矩阵
除基础模型外,智源大会还发布了四款聚焦落地的 Agent 产品:
BAAI Cardiac Agent:全球首个面向心脏磁共振的辅助诊断智能体。基于安贞医院海量影像 - 文本数据,构建一站式诊疗流程,诊断精确度达到顶尖专家水平(AUC 超 0.93),推动优质医疗资源普惠。
AREX:面向科学发现的自主研究智能体。致力于让 AI 从模仿学习跨越至自主学习,服务于文献调研、实验设计及论文撰写等全流程,降低科研对人类参与的依赖。
SoulAgent:面向个人用户的专属智能体。采用全新自研架构,Token 成本节省 30%,资源占用降低 80%。基于用户画像自进化,满足个性化服务与长期记忆留存需求,并在大会上实现了实时听会与观点提炼功能。
风险发现智能体:面向有害蛋白获取的风险发现智能体。首次打通“计算机模拟”与“真实实验验证”闭环,验证了 AI 智能体绕过生物安全筛查的可能性。该系统通过主动模拟攻击行为,将生物安全风险防控从“事后补救”转为“事前演练”。
上述模型的运行离不开底层算力支撑。众智 FlagOS 升级至 2.1 版本,成为全球支持芯片种类最多的智算系统软件栈。
FlagOS 统一适配 18 家芯片品牌的 32 款型号,覆盖 NVIDIA、华为昇腾、海光等多种架构,支持 90% 以上主流开源大模型的多芯片部署,并实现“发布即多芯适配”。其在端到端性能优化、算子库建设及通信库标准制定方面均取得突破性进展,核心组件已进入 PyTorch 基金会生态。
“AI 春晚”的含金量
本届大会邀请到两位图灵奖得主进行专题演讲。
Whitfield Diffie 聚焦 Agent 的安全防护。他指出,当前程序规模已超出人类验证能力,未来需开发形式化方法提升可靠性,并强调在编程实践中加强对智能体的访问限制(Confinement)至关重要。
Andrew Barto 以“重新发现强化学习”为题,阐述其“控制、搜索与联想记忆”三位一体的本质。他强调强化学习与神经网络研究的同源关系,并警示需警惕奖励信号设计中的潜在风险。
在高端对话环节,黄铁军与王坚围绕“总有人比时代早十年”展开讨论,探讨中国大模型如何从跟随走向原创范式跃迁,以及人与 AI 文明共存的未来图景。
“重构世界”圆桌论坛上,朱军、罗福莉、刘知远、安波等行业领军者共同探讨了超级模型能力演进、AI 自进化及多模态世界模型如何推动 AI 从数字空间走向物理世界。
独特的智源模式
历经八届,智源大会已成为精准指示 AI 前沿趋势的风向标。从深度学习到大模型,再到如今的世界模型与 Agent,智源始终踩中关键节点。
智源研究院坚持“做高校做不了,企业不愿做的事”。它介于高校与企业之间,既敢押注短期内无商业回报的前沿方向(如原生多模态、通用世界模型),又拥有工程化团队将理论成果转化为可开源、可部署的实际应用,持续推动中国 AI 产业的创新发展。

