大数跨境

一个普通人怎么走到了世界模型

一个普通人怎么走到了世界模型 果叔Ai全球化笔记
2026-04-30
4
导读:谢赛宁这场 7 小时访谈真正有意思的地方,是一个普通人如何在视觉、表征、真实世界和世界模型之间,慢慢长出自己的判断。

一个普通人如何走进世界模型研究

果叔 · 阅读时间 8 分钟

研读完谢赛宁7小时深度访谈后,核心问题浮现:一位看似普通的学者,如何切入人工智能领域最艰深且不易阐释的方向?

上海交大ACM班、UCSD博士、FAIR等机构履历虽属顶级研究者标配,但访谈价值在于揭示其如何突破多重"标准答案"束缚——从求学路径、研究范式到行业主流路线。

谢赛宁始终选择"旁观视角":不执着于名校排名、顶会荣誉或头部机构光环,而将目光投向视觉、物理世界与具身智能,最终聚焦世界模型研究。这种路径选择,恰是AI领域亟需的多元思考范式。

非典型成长路径

谢赛宁自述并非"天选之子",其交大ACM班成绩位列前十的普通背景反而更具真实性。早期已显露独立判断特质——不完全受外部评价驱动,选择符合兴趣的发展方向。

关键转折点印证其核心准则:本科舍弃MSRA标准路径转赴新加坡国立视觉实验室;博士择取UCSD涂卓文团队;拒绝OpenAI转投FAIR与何恺明共事;婉拒Ilya SSI邀约。这些决策背后是持续的价值选择:追随核心问题与理想合作者,而非盲目追逐热度。

偏离主流路径需承担代价,但若每步都选热门方向,终将成为时代叙事的附庸,丧失独立判断力。这种选择模式在当前AI热潮中尤为珍贵。

被忽视的视觉价值

谢赛宁投身计算机视觉源于根本认知:视觉是人类感知世界的核心渠道。其成长环境融合理论学习与真实体验——跟随母亲游历、受父亲摄影与心理学影响、早期接触互联网文化,形成对物理世界的立体认知。

当前主流观点将语言模型视为智能地基,但世界由多维数据构成:视频流、身体动作、空间关系、传感器信号等物理要素难以通过文本转换处理。视觉非AI细分领域,而是理解智能的关键视角。

尽管多模态模型发展迅速,单纯将图像作为LLM输入存在本质局限。世界模型需要理解连续时空中的状态变化、因果关联与行动后果。图像问答能力不等于视觉理解完成,视频生成亦不等同世界认知。这才是世界模型研究的根本价值所在。

研究的本质:问题与探索的共生

从博士阶段的DSN、HED到后续的MoCo、MAE、DiT等成果,表面方向频变,底层逻辑始终聚焦:如何有效表征世界?模型中间层蕴含何种信息?哪些表征能支撑预测与行动?

研究实为"随机梯度下降"过程:始于模糊方向,经文献研读、实验调试、结果分析逐步迭代。何恺明奠定的扎实研究方法——严谨baseline、清晰实验记录、结果溯源分析——是其研究体系的核心支柱。

值得注意的是,研究价值常具时间滞后性。DSN因公式笔误遭拒后获时间检验奖,DiT初遭CVPR以"创新不足"理由拒稿,最终成为视频生成关键技术节点。这提醒业界:短期引用率与奖项仅为点估计,真正价值需通过时间验证。

真实世界的挑战

谢赛宁肯定LLM革命性价值,但指出其适用边界——强于符号化数字世界(文本、代码、结构化知识),弱于物理世界理解。能生成优质代码的模型未必理解厨房操作,高分数学模型难判断物体滑落后果。

世界模型需解决状态感知、动作预测、因果推断、行为规划等核心问题。当前诸多"世界模型"产品仅实现视觉分布学习,本质仍缺关键能力:动作条件下的状态转移预测、反事实推理与环境适应能力。

过度聚焦"AGI"概念容易偏离实质问题。人类符号能力不应等同智能整体,松鼠在物理世界生存所需的感知-运动协调,恰是当前AI的薄弱环节。

世界模型的核心在于理解状态、动作与后果的关联。

AMI Labs的真实世界实践

谢赛宁与Yann LeCun共创AMI Labs的战略定位清晰:逆向OpenAI路径。不同于后者从互联网文本切入,AMI专注于获取医院、工厂、交通等场景的真实数据,构建世界模型的基础设施。

该路径面临多重挑战:数据分散在各类机构,涉及隐私合规、行业壁垒与标准差异。但正因难度高,形成的竞争壁垒更坚固——真实世界数据与物理场景深度绑定,无法通过简单算力堆叠获取。

借鉴支付行业Visa与MasterCard的发展逻辑,AMI试图建立世界模型时代的行业数据联盟。这既是技术探索,也是组织创新:需平衡长期研究自由与商业化落地,突破学术资源局限与大厂业务束缚。

物理世界AI需整合行业现场、传感器与行动反馈数据。

思想沃土的价值

访谈展现的研究者精神世界尤为重要:纽约公园、毕赣电影、《哥德尔埃舍尔巴赫》等文化养分,深刻影响其对时间、空间与连续经验的理解。Yann LeCun亦如此,从天文摄影到Tarkovsky电影的文化素养,支撑其在LLM热潮中坚持科学判断。

技术突破常源于跨域思想碰撞。持续关注电影时间叙事的研究者,更可能洞察视频理解本质;研读哲学著作的学者,更能穿透技术表象追问智能本源。真正的前沿探索,需要超越纯技术维度的思想空间。

世界模型的核心意义

谢赛宁道路的价值不在可复制的成功学,而在于三重启示:其一,警惕"标准答案"对认知的禁锢;其二,核心问题会穿越技术周期反复回归;其三,AI终需回归人类生活现场。

真实世界存在无法被文本描述的复杂细节:老人护理的微表情、工厂设备的操作反馈、城市交通的风险判断。世界模型若仅服务于营销话术或融资故事终将泡沫化,但剥离表象后,其指向的根本命题——如何让AI理解物理世界的运行规律——具有不可替代的价值。

选择"真实世界"路径意味着主动拥抱难题:行业数据合作复杂、传感器部署成本高、成果显现周期长。然而若下一代AI需从"会说"进化为"会做",这恰是无法绕行的必经之路。谢赛宁的实践昭示:真正的突破始于不断更新的世界观,而非预设的标准答案。

【声明】内容源于网络
0
0
果叔Ai全球化笔记
各类跨境出海行业相关资讯
内容 189
粉丝 0
果叔Ai全球化笔记 各类跨境出海行业相关资讯
总阅读4.5k
粉丝0
内容189