「AI春晚」又来了！智源研究院推出的世界模型，成今年最硬一盘菜- 大数跨境

首页

「AI春晚」又来了！智源研究院推出的世界模型，成今年最硬一盘菜

量子位

2026-06-12

导读：AI话题风向标

2026 年，AI 领域的核心焦点已转向世界模型。当 AI 不仅学会“思考”物理规律，更具备自主行动的“手脚”，其能力便从理论推演迈向真实世界的理解与执行。

本届被誉为"AI 春晚”的智源大会在北京中关村召开，核心议题正是世界模型。会上发布了两个重磅世界模型，多款模型迎来重大升级，并推出覆盖四大应用场景的 Agent 矩阵，旨在解决现实世界的实际难题。

北京智源大会由智源研究院主办，以“技术前沿、国际视野、青年人才”为特色。本届大会规格极高：现代数字安全体系奠基人 Whitfield Diffie 线下出席，探讨 Agent 时代的安全挑战；强化学习奠基人 Andrew Barto 深入剖析交互驱动智能的意义。

30 余位青年科学家、40 余位 AI 企业创始人及首席科学家、200 余位顶尖学者齐聚一堂。Meta、英伟达、哈佛、MIT 等国际机构，与阿里、腾讯、小米、清华、北大等国内核心创新力量同台交流，围绕世界模型、通用智能体、具身智能、AI 安全等前沿方向展开深度对话。

开幕式上，智源研究院院长王仲远发布 2026 年度进展报告，展示了基座大模型、智能体及基础软硬件生态的最新成果。

自 2018 年成立以来，智源研究院构建了从“悟道”到“悟界”的全栈大模型开源技术体系。截至目前，智源开源模型超 200 个，全球累计下载量突破 10 亿次，孵化了多家具有代表性的创新创业企业。

智源研判，人工智能正加速从多模态大模型向世界模型演进，从数字世界迈向物理世界。过去一年，智源系统性梳理了世界模型发展历程，提出四大技术分类，并正式介绍研发中的悟界·Physis。

世界模型：下一个 AI 范式

本次大会的最大亮点是全球首个通用世界基座模型——悟界·Physis-v0.1。该模型为 AI 装上了“物理引擎”，使其能够像物理引擎一样思考，预测动作在真实世界产生的后果，而非仅依赖语言数据的经验归纳。

悟界·Physis-v0.1 重塑了 AI 物理感知与推演的底层技术体系。它打破传统垂类场景瓶颈，通过物理隐空间表征替代像素级预测，实现了跨场景通用物理规律的强化学习。

该模型搭载专属物理状态编码器，可压缩视频、深度 RGB、3D 点云及力触反馈等全模态信息，统一转化为标准化隐空间物理状态。其具备物理一致性、动作因果性、长程可推演性及通用泛化性四大核心能力，支持 50+ 复杂物理场景的长程推理，广泛应用于严肃工业、具身智能及科学研究等领域。

另一款亮相模型是悟界·RoboBrain Orca，这是一款以下一个物理状态预测为核心的具身大脑。它构建了“统一表征—建模—预测—交互”的完整闭环，将 AI 能力从“预测下一个词元”升级为“预测下一个物理状态”。

悟界·RoboBrain Orca 具备统一表征、因果推演、模态解码三大能力，实现“想、看、动”三位一体。例如在执行“递可乐”指令时，它能同步完成语言推理（确认需求）、视觉预测（规划路径避开障碍）及动作决策（机械臂抓取），支撑机器人在物流、酒店服务等真实环境中的长期自主作业。

智源研究院是国内最早开展世界模型研究的机构。继 2024 年发布全球首个原生多模态世界模型悟界·Emu3（成果登刊 Nature 正刊）及 2025 年升级版的 Emu3.5 后，智源持续引领技术演进。

Emu3.5 进一步扩展至跨视觉与语言序列的“下一状态预测”，以纯自回归框架实现文本、图像、视频的统一理解与生成，内置时空关系与因果逻辑建模能力，兼具学术价值与产业支撑价值。

针对当前世界模型定义未统一的现状，智源将其划分为四类：以语言为中心（如 VLM）、以像素为中心（如 Sora）、以三维结构为中心（如 World Labs Marble）以及以视觉表征为中心（如 JEPA）。智源认为，真正的世界模型应能感知、推理真实物理状态，涵盖全模态数据，并具备主动交互能力。

此外，智源还发布了多项重要创新成果：

悟界·Brainμ1.0：全球首个理解与生成统一的多模态神经科学大模型。它将人类、猕猴、小鼠等跨物种的全模态脑信号统一编码为标准 Token，并与通用模态对齐，有效解决神经科学领域数据孤岛问题，辅助阿尔兹海默症等疾病诊断。该模型已支撑相关研究成果登刊 Science。

悟界·OpenComplex2.5：下一代 AI 驱动药物发现模型，重点解决固有无序蛋白（IDP）动态构象解析难题。该模型覆盖口袋识别、反向筛选、结构预测和亲和力预测四个关键步骤，为神经退行性疾病等难成药靶点研究提供新路径。

干活麻利的 Agent 矩阵

除基础模型外，智源大会还发布了四款聚焦落地的 Agent 产品：

BAAI Cardiac Agent：全球首个面向心脏磁共振的辅助诊断智能体。基于安贞医院海量影像 - 文本数据，构建一站式诊疗流程，诊断精确度达到顶尖专家水平（AUC 超 0.93），推动优质医疗资源普惠。

AREX：面向科学发现的自主研究智能体。致力于让 AI 从模仿学习跨越至自主学习，服务于文献调研、实验设计及论文撰写等全流程，降低科研对人类参与的依赖。

SoulAgent：面向个人用户的专属智能体。采用全新自研架构，Token 成本节省 30%，资源占用降低 80%。基于用户画像自进化，满足个性化服务与长期记忆留存需求，并在大会上实现了实时听会与观点提炼功能。

风险发现智能体：面向有害蛋白获取的风险发现智能体。首次打通“计算机模拟”与“真实实验验证”闭环，验证了 AI 智能体绕过生物安全筛查的可能性。该系统通过主动模拟攻击行为，将生物安全风险防控从“事后补救”转为“事前演练”。

上述模型的运行离不开底层算力支撑。众智 FlagOS 升级至 2.1 版本，成为全球支持芯片种类最多的智算系统软件栈。

FlagOS 统一适配 18 家芯片品牌的 32 款型号，覆盖 NVIDIA、华为昇腾、海光等多种架构，支持 90% 以上主流开源大模型的多芯片部署，并实现“发布即多芯适配”。其在端到端性能优化、算子库建设及通信库标准制定方面均取得突破性进展，核心组件已进入 PyTorch 基金会生态。

“AI 春晚”的含金量

本届大会邀请到两位图灵奖得主进行专题演讲。

Whitfield Diffie 聚焦 Agent 的安全防护。他指出，当前程序规模已超出人类验证能力，未来需开发形式化方法提升可靠性，并强调在编程实践中加强对智能体的访问限制（Confinement）至关重要。

Andrew Barto 以“重新发现强化学习”为题，阐述其“控制、搜索与联想记忆”三位一体的本质。他强调强化学习与神经网络研究的同源关系，并警示需警惕奖励信号设计中的潜在风险。

在高端对话环节，黄铁军与王坚围绕“总有人比时代早十年”展开讨论，探讨中国大模型如何从跟随走向原创范式跃迁，以及人与 AI 文明共存的未来图景。

“重构世界”圆桌论坛上，朱军、罗福莉、刘知远、安波等行业领军者共同探讨了超级模型能力演进、AI 自进化及多模态世界模型如何推动 AI 从数字空间走向物理世界。

独特的智源模式

历经八届，智源大会已成为精准指示 AI 前沿趋势的风向标。从深度学习到大模型，再到如今的世界模型与 Agent，智源始终踩中关键节点。

智源研究院坚持“做高校做不了，企业不愿做的事”。它介于高校与企业之间，既敢押注短期内无商业回报的前沿方向（如原生多模态、通用世界模型），又拥有工程化团队将理论成果转化为可开源、可部署的实际应用，持续推动中国 AI 产业的创新发展。

【声明】内容源于网络

量子位

各类跨境出海行业相关资讯

内容 16129

粉丝 1

量子位各类跨境出海行业相关资讯

总阅读261.7k

粉丝1

内容16.1k