“智见”专栏
躬耕实践之田,极目探索之野。
为向客户提供高端、专业的咨询设计服务,公司在交付好每一个项目与产品的同时,前瞻性研究始终孜孜不倦。“智见专栏”特邀请公司资深专家,深入探讨智慧社会、人工智能等热点领域的最新发展与创新突破。
本专栏每月推出一期,以期抛砖引玉,共促交流。
专家简介
JIANJIE
徐啸峰,计算机辅助设计与制造专业,工学博士,享受国务院特殊津贴。担任中国电信大数据高级专家,江苏省数字政府标准化技术委员会委员,江苏省物联网标准化技术委员会委员,中
国电子学会评审专家,国家科技部现代服务业评审专家,江苏省算力联盟副秘书长等。先后发表论文30篇,专著4部,发明专利8项,编制中国国家智慧城市标准9项。先后荣获国家、省部级各类奖项20余次。
还真有点像。世界模型的目标是要在机器里构建一个“可以想象的内心世界”。它通常包括三个关键步骤,首先是表征学习(Representation Learning),它先把外部世界压缩成一个“潜在空间”,类似人脑中的抽象概念,不追求逐像素重建,而追求对未来有预测力的抽象表示,就像人类不会记住每一帧画面,但会记得“球在滚动”。其次进行潜在动力学建模。构建一个在潜在空间中演化的“物理引擎”,比如Dreamer系列算法(V1~V3),它让智能体在自己的脑海中进行“想象仿真”,预测接下来的状态变化。DreamerV3 甚至能在视觉环境中,仅靠想象就学会玩游戏或控制机器人。最后为想象与规划(Imagination & Planning),有了内心世界,智能体就能“脑补”各种可能的未来场景,然后选择最优路径。它就像下围棋时,在脑中提前演练几百步,最后选出最好的那一步。
两者其实在不同层面上指向同一个目标——让机器具备抽象预测能力。JEPA 提供的是“感知抽象”的思想,它让智能体从复杂输入中提取稳定的高层语义;DreamerV3 则关注“动态想象”,让智能体能在抽象表征中持续推演未来。前者像是给机器装上了感知世界的眼睛,后者则赋予它思考与规划的脑。结合二者,机器不仅能看清现实,还能在脑海中试错、规划和决策——这正是通向通用智能的关键一步。
实现路径其实比想象中更系统。首先需要设计环境接口,收集多模态数据,如视觉、动作、奖励等信号;然后通过卷积或 Transformer 编码器学习潜在表征,构建紧凑的抽象状态空间;接着训练一个潜在动力学模型(如 RSSM 或 Transformer 结构)去预测这些状态的演化趋势。DreamerV3 的关键创新在于,它不在真实世界上做无数次试验,而是在潜在空间中进行“想象演练”,在脑中反复预测与校正。行为策略的优化则在这些想象的轨迹上完成,辅以少量真实数据修正偏差。通过这种方式,智能体能在脑中模拟千万次行动,从而快速学习复杂任务。这种“内省式学习”让智能体的效率和泛化能力都得到极大提升。
这是一个几乎可以确定的趋势。LLM 善于语言与逻辑,是智能体的“认知系统”;而世界模型擅长预测与行动,是“感知和决策系统”。未来的智能体将把两者结合起来——LLM 用语言制定目标,世界模型用想象实现行动。比如一个机器人接收到 LLM 的高层任务指令“请整理桌面”,它的世界模型会模拟出如何移动手臂、避开障碍、抓取物体的序列,最终完成目标。这种语言与世界的融合,意味着 AI 不仅能说出“怎么做”,还能真正“做到”。
挑战不少。最大的难点在于如何保证“想象”的真实性——模型在潜在空间中预测的世界必须足够接近现实,否则它的规划就会偏离目标。另外,世界模型训练需要大量算力和稳定的算法设计,DreamerV3 已经在多任务上实现了较好的稳定性,但距离跨领域泛化仍有距离。正如杨立昆所说,真正的智能不是靠模仿数据,而是靠预测世界。让机器学会预测,是理解世界的第一步,也是通向下一代智能的必经之路。
公司始建于1963年,系致力于通信、建筑、信息化、电力、节能环保的咨询、设计、研究与实施的国家级重点高新技术企业,住建部、工信部等政府部门国家标准和行业标准制定单位之一,通信运营商集团总部主要技术支撑单位。国家发改委认定的国家企业技术中心,江苏省省长质量奖获奖单位。
公司以“国内一流、国际有影响力的智慧服务创新型企业”为愿景,多年来潜心传承智慧网络,创意与灵感构建无穷想象。
公司定位于“智慧服务创新型企业”,以中国通服智慧城市工程院为载体,智慧城市总承包建设能力处于国内领先地位。
地址:江苏省南京市楠溪江东街58号
联系电话:025-52868888
供稿 | 徐啸峰
编辑 | 朱蔚然
责编 | 魏贤虎
审核 | 黄晓华

