

智见丨LLM VS 世界模型：人工智能算法发展趋势分析

中通服咨询设计研究院

2025-11-27

“智见”专栏

躬耕实践之田，极目探索之野。

为向客户提供高端、专业的咨询设计服务，公司在交付好每一个项目与产品的同时，前瞻性研究始终孜孜不倦。“智见专栏”特邀请公司资深专家，深入探讨智慧社会、人工智能等热点领域的最新发展与创新突破。

本专栏每月推出一期，以期抛砖引玉，共促交流。

专家简介

JIANJIE

徐啸峰，计算机辅助设计与制造专业，工学博士，享受国务院特殊津贴。担任中国电信大数据高级专家，江苏省数字政府标准化技术委员会委员，江苏省物联网标准化技术委员会委员，中

国电子学会评审专家，国家科技部现代服务业评审专家，江苏省算力联盟副秘书长等。先后发表论文30篇，专著4部，发明专利8项，编制中国国家智慧城市标准9项。先后荣获国家、省部级各类奖项20余次。

徐博士，最近大家都在聊“世界模型（World Model）”，说它要挑战“大语言模型（LLM）”的地位。它们到底有什么区别？

哈哈，小智别急。如果说大语言模型是语言的百科全书，那么世界模型就是理解和预测世界的物理学家。前者通过大规模语料捕捉词语间的统计关系，能说会写，却不真正理解背后的现实逻辑；后者则尝试让机器在脑海中建立一个“内在世界”，学会像人类一样进行想象和推理。世界模型并不依赖外部输入的文字或图像，而是从交互数据中学习出环境的潜在规律，通过内部模拟预测未来的状态。它不是在记忆，而是在推演，是一种真正“理解世界”的智能形态。

听起来很高级，那世界模型是怎么“想”的呢？它真的能像人脑一样想象吗？

还真有点像。世界模型的目标是要在机器里构建一个“可以想象的内心世界”。它通常包括三个关键步骤，首先是表征学习（Representation Learning），它先把外部世界压缩成一个“潜在空间”，类似人脑中的抽象概念，不追求逐像素重建，而追求对未来有预测力的抽象表示，就像人类不会记住每一帧画面，但会记得“球在滚动”。其次进行潜在动力学建模。构建一个在潜在空间中演化的“物理引擎”，比如Dreamer系列算法（V1~V3），它让智能体在自己的脑海中进行“想象仿真”，预测接下来的状态变化。DreamerV3 甚至能在视觉环境中，仅靠想象就学会玩游戏或控制机器人。最后为想象与规划（Imagination & Planning），有了内心世界，智能体就能“脑补”各种可能的未来场景，然后选择最优路径。它就像下围棋时，在脑中提前演练几百步，最后选出最好的那一步。

DreamerV3 和杨立昆的思路有什么关联？

两者其实在不同层面上指向同一个目标——让机器具备抽象预测能力。JEPA 提供的是“感知抽象”的思想，它让智能体从复杂输入中提取稳定的高层语义；DreamerV3 则关注“动态想象”，让智能体能在抽象表征中持续推演未来。前者像是给机器装上了感知世界的眼睛，后者则赋予它思考与规划的脑。结合二者，机器不仅能看清现实，还能在脑海中试错、规划和决策——这正是通向通用智能的关键一步。

工程上如何实现这样的世界模型？

实现路径其实比想象中更系统。首先需要设计环境接口，收集多模态数据，如视觉、动作、奖励等信号；然后通过卷积或 Transformer 编码器学习潜在表征，构建紧凑的抽象状态空间；接着训练一个潜在动力学模型（如 RSSM 或 Transformer 结构）去预测这些状态的演化趋势。DreamerV3 的关键创新在于，它不在真实世界上做无数次试验，而是在潜在空间中进行“想象演练”，在脑中反复预测与校正。行为策略的优化则在这些想象的轨迹上完成，辅以少量真实数据修正偏差。通过这种方式，智能体能在脑中模拟千万次行动，从而快速学习复杂任务。这种“内省式学习”让智能体的效率和泛化能力都得到极大提升。

世界模型和 LLM 未来会融合吗？

这是一个几乎可以确定的趋势。LLM 善于语言与逻辑，是智能体的“认知系统”；而世界模型擅长预测与行动，是“感知和决策系统”。未来的智能体将把两者结合起来——LLM 用语言制定目标，世界模型用想象实现行动。比如一个机器人接收到 LLM 的高层任务指令“请整理桌面”，它的世界模型会模拟出如何移动手臂、避开障碍、抓取物体的序列，最终完成目标。这种语言与世界的融合，意味着 AI 不仅能说出“怎么做”，还能真正“做到”。

听起来已经很接近通用智能了，它还有什么挑战？

挑战不少。最大的难点在于如何保证“想象”的真实性——模型在潜在空间中预测的世界必须足够接近现实，否则它的规划就会偏离目标。另外，世界模型训练需要大量算力和稳定的算法设计，DreamerV3 已经在多任务上实现了较好的稳定性，但距离跨领域泛化仍有距离。正如杨立昆所说，真正的智能不是靠模仿数据，而是靠预测世界。让机器学会预测，是理解世界的第一步，也是通向下一代智能的必经之路。

通过这些问题，我越来越清楚地看到，大模型让机器学会了语言，而世界模型让机器开始理解世界。它不再只是一个回答问题的工具，而是在通过想象构建自己的经验体系。也许真正的智能，不在于它能记住多少信息，而在于它能否在未见之事中推测可能，在未至之地中找到方向。世界模型正是这条路上的灯塔，它让我们看见了AI从“模仿人”走向“理解世界”的那一束光。谢谢徐博士。