一个普通人怎么走到了世界模型- 大数跨境

果叔Ai全球化笔记

2026-04-30

导读：谢赛宁这场 7 小时访谈真正有意思的地方，是一个普通人如何在视觉、表征、真实世界和世界模型之间，慢慢长出自己的判断。

一个普通人如何走进世界模型研究

果叔 · 阅读时间 8 分钟

研读完谢赛宁7小时深度访谈后，核心问题浮现：一位看似普通的学者，如何切入人工智能领域最艰深且不易阐释的方向？

其上海交大ACM班、UCSD博士、FAIR等机构履历虽属顶级研究者标配，但访谈价值在于揭示其如何突破多重"标准答案"束缚——从求学路径、研究范式到行业主流路线。

谢赛宁始终选择"旁观视角"：不执着于名校排名、顶会荣誉或头部机构光环，而将目光投向视觉、物理世界与具身智能，最终聚焦世界模型研究。这种路径选择，恰是AI领域亟需的多元思考范式。

谢赛宁自述并非"天选之子"，其交大ACM班成绩位列前十的普通背景反而更具真实性。早期已显露独立判断特质——不完全受外部评价驱动，选择符合兴趣的发展方向。

关键转折点印证其核心准则：本科舍弃MSRA标准路径转赴新加坡国立视觉实验室；博士择取UCSD涂卓文团队；拒绝OpenAI转投FAIR与何恺明共事；婉拒Ilya SSI邀约。这些决策背后是持续的价值选择：追随核心问题与理想合作者，而非盲目追逐热度。

偏离主流路径需承担代价，但若每步都选热门方向，终将成为时代叙事的附庸，丧失独立判断力。这种选择模式在当前AI热潮中尤为珍贵。

谢赛宁投身计算机视觉源于根本认知：视觉是人类感知世界的核心渠道。其成长环境融合理论学习与真实体验——跟随母亲游历、受父亲摄影与心理学影响、早期接触互联网文化，形成对物理世界的立体认知。

当前主流观点将语言模型视为智能地基，但世界由多维数据构成：视频流、身体动作、空间关系、传感器信号等物理要素难以通过文本转换处理。视觉非AI细分领域，而是理解智能的关键视角。

尽管多模态模型发展迅速，单纯将图像作为LLM输入存在本质局限。世界模型需要理解连续时空中的状态变化、因果关联与行动后果。图像问答能力不等于视觉理解完成，视频生成亦不等同世界认知。这才是世界模型研究的根本价值所在。

从博士阶段的DSN、HED到后续的MoCo、MAE、DiT等成果，表面方向频变，底层逻辑始终聚焦：如何有效表征世界？模型中间层蕴含何种信息？哪些表征能支撑预测与行动？

研究实为"随机梯度下降"过程：始于模糊方向，经文献研读、实验调试、结果分析逐步迭代。何恺明奠定的扎实研究方法——严谨baseline、清晰实验记录、结果溯源分析——是其研究体系的核心支柱。

值得注意的是，研究价值常具时间滞后性。DSN因公式笔误遭拒后获时间检验奖，DiT初遭CVPR以"创新不足"理由拒稿，最终成为视频生成关键技术节点。这提醒业界：短期引用率与奖项仅为点估计，真正价值需通过时间验证。

谢赛宁肯定LLM革命性价值，但指出其适用边界——强于符号化数字世界（文本、代码、结构化知识），弱于物理世界理解。能生成优质代码的模型未必理解厨房操作，高分数学模型难判断物体滑落后果。

世界模型需解决状态感知、动作预测、因果推断、行为规划等核心问题。当前诸多"世界模型"产品仅实现视觉分布学习，本质仍缺关键能力：动作条件下的状态转移预测、反事实推理与环境适应能力。

过度聚焦"AGI"概念容易偏离实质问题。人类符号能力不应等同智能整体，松鼠在物理世界生存所需的感知-运动协调，恰是当前AI的薄弱环节。

世界模型的核心在于理解状态、动作与后果的关联。

谢赛宁与Yann LeCun共创AMI Labs的战略定位清晰：逆向OpenAI路径。不同于后者从互联网文本切入，AMI专注于获取医院、工厂、交通等场景的真实数据，构建世界模型的基础设施。

该路径面临多重挑战：数据分散在各类机构，涉及隐私合规、行业壁垒与标准差异。但正因难度高，形成的竞争壁垒更坚固——真实世界数据与物理场景深度绑定，无法通过简单算力堆叠获取。

借鉴支付行业Visa与MasterCard的发展逻辑，AMI试图建立世界模型时代的行业数据联盟。这既是技术探索，也是组织创新：需平衡长期研究自由与商业化落地，突破学术资源局限与大厂业务束缚。

物理世界AI需整合行业现场、传感器与行动反馈数据。

访谈展现的研究者精神世界尤为重要：纽约公园、毕赣电影、《哥德尔埃舍尔巴赫》等文化养分，深刻影响其对时间、空间与连续经验的理解。Yann LeCun亦如此，从天文摄影到Tarkovsky电影的文化素养，支撑其在LLM热潮中坚持科学判断。

技术突破常源于跨域思想碰撞。持续关注电影时间叙事的研究者，更可能洞察视频理解本质；研读哲学著作的学者，更能穿透技术表象追问智能本源。真正的前沿探索，需要超越纯技术维度的思想空间。

谢赛宁道路的价值不在可复制的成功学，而在于三重启示：其一，警惕"标准答案"对认知的禁锢；其二，核心问题会穿越技术周期反复回归；其三，AI终需回归人类生活现场。

真实世界存在无法被文本描述的复杂细节：老人护理的微表情、工厂设备的操作反馈、城市交通的风险判断。世界模型若仅服务于营销话术或融资故事终将泡沫化，但剥离表象后，其指向的根本命题——如何让AI理解物理世界的运行规律——具有不可替代的价值。

选择"真实世界"路径意味着主动拥抱难题：行业数据合作复杂、传感器部署成本高、成果显现周期长。然而若下一代AI需从"会说"进化为"会做"，这恰是无法绕行的必经之路。谢赛宁的实践昭示：真正的突破始于不断更新的世界观，而非预设的标准答案。

【声明】内容源于网络

果叔Ai全球化笔记

各类跨境出海行业相关资讯

内容 189

粉丝 0

果叔Ai全球化笔记各类跨境出海行业相关资讯

总阅读4.5k

粉丝0

内容189