大数跨境
0
0

重磅新研究!谢赛宁团队联手LeCun、李飞飞提出Cambrian-S,探索“视频空间超感知”技术

重磅新研究!谢赛宁团队联手LeCun、李飞飞提出Cambrian-S,探索“视频空间超感知”技术 头部科技
2025-11-10
1
导读:灵感来源于人类认知理论
图片
文丨谭梓馨
空间智能领域又迎来一项前沿新研究。
这次,作者列表包含三位AI大神:Yann LeCun、李飞飞、谢赛宁,他们联合提出Cambrian-S(寒武纪-S)模型家族,这是一系列基于空间的模型和数据集、基准,具备领先的空间感知性能与通用能力。
一作Shusheng Yang是项目领导者谢赛宁介绍,他之前从事Qwen模型相关研究,目前是纽约大学库朗数学研究所博士,共同一作为Jihan Yang,是库朗数学研究所的博士后研究员,两人均由谢赛宁指导

这项新研究将空间超感知定义为超越纯语言理解的四个阶段:语义感知(为所见事物命名)、流式事件认知(在连续体验中维持记忆)、隐式3D空间认知(推断像素背后的真实世界)与预测性世界建模(构建用于筛选和组织信息的内部模型)。
论文作者认为,视频并非仅仅是一系列孤立的帧,而是将一个隐藏的、不断演变的三维世界持续地、高带宽地投射到像素上,迈向真正的多模态智能需要从以语言为中心的感知转向空间超感知:这种能力不仅在于能够看到,还在于能够根据持续的感官经验构建、更新和预测三维世界的隐式模型。
图片
从预测像素到预测思维
谢赛宁发帖介绍,Cambrian-S既是一个立场,也是一个数据集、一个基准、一个模型,但最重要的是,它代表了探索视频空间超感知技术的第一步。
早在去年,他们团队就构建了Cambrian-1,一个用于图像的多模态模型开放式探索项目,但之后并没有直接扩展到Cambrian-2或3,而是停下来思考了一些重要问题:
真正的多模态智能意味着什么?LLM范式对感知建模真的有意义吗?为什么人类的感知如此轻松、如此直觉却又如此强大?结论就是,如果不先建立超级感知能力,可能就无法真正建立超级智能。
什么是超感应能力呢?谢赛宁认为超感应并不是指高级传感器或更好的摄像头,它讲述的应该是数字生命体如何真正体验世界,吸收源源不断的输入并从中学习。
因此,他们团队进行了一种新的分类法,展望接下来实际需要构建的东西:
0.语言理解:缺乏感官能力,推理仅限于文本和符号,目前的多语言学习模型已经超越了这一阶段,但仍然保留着其偏见的痕迹。 
1. 语义感知:将像素解析为对象、属性和关系,这与多层线性模型中存在的强大的多模态“展示与讲述”能力相对应。 
2. 流式事件认知:处理实时、无界的流,同时主动解释和响应正在发生的事件,这与目前将多语言学习者(MLLM)打造为实时助手的努力方向一致。 
3. 内隐三维空间认知:将视频理解为三维世界的投影。智能体必须知道物体存在什么、它们在哪里、它们之间如何关联以及它们如何随时间变化,目前的多模态模型在这方面仍然非常有限。 
4. 预测性世界建模:人类大脑通过基于先前预期预测潜在的世界状态来进行“无意识推理”。当这些预测被打破时,意外会引导注意力、记忆和学习。然而,当前的多模态系统缺乏一个能够预测未来状态并利用意外来组织感知以进行记忆和决策的内部模型。
按这样的技术演进逻辑,他们构想一种多模态智能——它能够观察、记忆与推理,并作为连续的、真实生活世界的一部分而存在。
视频是理想的实验领域。模型需从帧级别问答升级,构建能实现更深度空间推理的隐式世界模型,适配无界时长场景,未来有望达成可比肩、最终超越人类视觉智能的超感知能力。
图片
灵感来源于人类认知理论
这项研究主要分为三部分展开。首先,需要基于超感知层级视角重新审视现有基准测试。
研究发现,大多数基准测试仅对应超感知的前几个阶段,少数测试虽已开始探究空间推理,但均未充分覆盖预测性世界建模这一关键最终阶段。
为明确这一研究缺口并推动研究思路转变,他们提出VSI-SUPER,一种面向多模态LLM的空间超感知基准测试。其中,VSR聚焦长时程空间观察与回忆能力,VSC则测试视角和场景变化下的连续计数能力。
该基准测试要求感知过程具备选择性与结构性,而非无差别地积累信息,实验结果表明,即便是性能最优的长上下文商用模型,在VSI-SUPER上也表现不佳
作为具备长上下文能力的当前最优视频理解模型,上下文长度达1048576个token的谷歌Gemini在通用视频基准测试中表现出色,但在空间超感知任务上存在明显局限。
Gemini-2.5-Flash在语义感知和语言理解导向的视频基准测试中表现强劲,准确率约为80%。然而,即便面对VSI-SUPER中时长仅60分钟、远在其上下文窗口范围内的视频,其在VSR和VSC上的表现仍十分有限,准确率分别仅为41.5%和10.9%。
第二部分,探究空间超感知是否仅为数据层面的问题。
研究人员构建了VSI-590K数据集——这是一个聚焦空间维度的图像与视频指令微调语料库,并基于该数据集训练出了Cambrian-S模型家族,即一系列扎根空间信息的视频多模态大语言模型。
在现有范式下,通过精心的数据集设计与训练,Cambrian-S在VSI-Bench基准测试中实现了当前最优的空间认知性能,性能提升超30%,且未牺牲通用能力,与业内领先的多层线性模型比较,Cambrian-S在各种图像和视频视觉空间基准测试中均优于专有模型和开源模型。
尽管Cambrian-S模型在处理短视频和预分割视频片段的空间推理任务中取得了成功,但它并不适合连续感知的需求,在VSI-SUPER基准测试中,视频时长超过30分钟时,得分会降至零,且该模型难以泛化到新的测试场景。
这让研究人员发现,在当前的MLLM框架下,仅靠扩大数据规模与扩展上下文,不足以实现超感知,要解决这些局限性,就需要进行范式转变,构建能够主动建模和预测世界,并更高效地组织自身经验的AI系统。
这推动了第三部分探讨,研究人员提出预测感知原型,作为迈向新范式的第一步,让模型学会预判感官输入,并构建内部世界模型以处理无界视觉流。
这一设计灵感源自人类认知理论。与当前将整个数据流分词后进行处理的视频多模态模型不同,人类的感知(及记忆)具有高度选择性,仅留存感官输入中的一小部分信息。大脑会持续更新内部模型以预测即将到来的刺激,对不包含新信息的可预测输入进行压缩或丢弃。相反,违背预测的意外感官信息会产生“意外度”,并促使注意力增强与记忆编码。
基于这种思路,他们利用模型的预测误差(即“意外度”)实现两大核心功能:(1)通过将资源分配给意外事件来管理记忆;(2)事件分割,将无界数据流拆分为有意义的片段。
实验表明,该方法虽原理简洁,但在两项新任务上显著优于Gemini-2.5等性能强劲的长上下文基线模型,该模型支持更深度的空间推理,适配无界时长场景,尽管这并非最终解决方案,但已展现出了有力证据:真正的超感知需要模型不仅能“看见”,更能主动预测并从世界中学习
图片
“空间超感知”的未来工作
研究人员强调,构建真正具备超感知能力的系统需要重新思考多个核心问题:包括如何设定研究进展的基准测试、何种数据构成合理、哪种架构设计最为有效,以及哪些建模目标与系统目标最契合。
视频是连续且可能无限延伸的视觉信号流,人类能轻松处理这类信号,但它的无界特性对视频多模态大语言模型构成挑战 ——token长度会随视频时长增加,导致计算与存储成本攀升,未来的多模态大语言模型(MLLMs)应借鉴人类的处理方式,构建内部预测模型以高效处理连续视觉流。
图像
另外,从视觉输入中理解空间关系,对于感知物理世界并与之交互至关重要。
不过这篇论文目前只是提出了一个概念框架,旨在推动学界重新审视发展空间超感知的重要性,作为一个长期研究方向,当前的基准测试、数据集及模型设计在质量、规模与泛化性上仍存在局限,原型仅作为概念验证。
谢赛宁对Yann LeCun、李飞飞进行了在线鸣谢,他们帮助团队换角度思考,重新校准了研究方向。
研究人员在最后表示,未来应探索更多样化的具身场景,并与视觉、语言及世界建模领域的最新进展建立更紧密的联系。

-END-

活动推荐
点击了解详情:重磅启航!头部科技×溪有物种「AI超级增长启航营」开启招募啦~
图片

如果您有什么想说的,欢迎在评论区留言讨论!

投稿或寻求报道,欢迎私信“投稿”,添加编辑微信。

【AI超级增长启航营】入群好礼:了解更多启航营资讯,交流最新科技动态和产业趋势,定期互动讨论和知识分享,与启航营导师互动交流,领取100份AI科技商业研报合集,加群共同探讨与成长,开启AI领域的超级增长之旅!

图片

【声明】内容源于网络
0
0
头部科技
1234
内容 1746
粉丝 0
头部科技 1234
总阅读6.0k
粉丝0
内容1.7k