引言:重新定义智能的边界
当谢赛宁、李飞飞和Yann LeCun这样的顶尖研究者联手,总能让科技界为之震动。他们最新提出的「空间超感知」概念,不仅仅是一个技术突破,更是对人工智能未来方向的深度思考。
我们是否过于依赖现有的多模态模型,而忽略了感知的本质? 这个问题直击人心,引发无数从业者的共鸣。人 类感知世界的方式是如此自然,但机器却仍在挣扎。谢赛宁团队没有急于推出Cambrian-2或3,而是停下来反思:什么才是真正的多模态智能?LLM范式是否适合感知建模?为什么人类感知如此轻松却又强大?这些思考催生了「空间超感知」的诞生,它代表了一种根本性的转变—— 从单纯处理数据到真正体验世界。
什么是空间超感知?
空间超感知不是更先进的传感器或更好的摄像头,而是数字生命体如何吸收无尽输入流并持续学习的能力。
它就像眼睛是大脑感知外部世界的那部分,智能必须建立在感知之上。 谢赛宁团队将多模态智能的发展路径划分为五个阶段:从仅语言理解到语义感知、流式事件认知、隐式3D空间认知,最终到预测性 世界建模。当前模型大多停留在语义感知阶段,将像素解析为对象和关系,但缺乏对3D空间 和未来预测的能力。视频作为终极媒介,是人类体验的直接投影,团队通过Cambrian-S项目 探索视频中的空间超感知,训练潜变量帧预测头,利用「惊讶度」来优化记忆管理和事件分割。这虽是一个玩具级模型,但已在VSI-Super基准上超越Gemini,显示出巨大潜力。
基准测试:VSI-Super的挑战
为了衡量空间超感知,团队审计了现有视频MLLM基准,发现它们侧重于语言理解和语义感 知,忽略了高级空间和时间推理。
VSI-Super基准专门设计用于探测流式场景中的空间智能,包括VSR和VSC两部分。 VSR要求模型在长视频中回忆异常物体位置,类似于「大海捞针」测试,但保持真实感并通过顺序回忆扩展挑战。VSC 则测试模型在变化视角下持续计数目标物体的能力,要求处理重复目击和场景转换。这些任务对人类直观简单,但对机器极具挑战性,暴露了当前模型对统计模式的过度依赖。基准支 持任意长度视频,从10分钟到240分钟,旨在超越固定上下文窗口,呼唤真正泛化能力。
当前模型的局限性
团队评估了最新Gemini-2.5-Flash模型,发现在VSI-Super上表现不佳。即使上下文长度达 到百万token,模型在处理两小时视频时仍达到限制,性能有限。
这揭示了一个残酷现实:仅靠规模扩张无法解决根本问题。 模型预测的计数饱和在很小值,未能随视频长度扩 展,表明缺乏泛化性。人类能 effortlessly 整合数小时感官信息,但模型缺少持续感知和 记忆机制。现有基准如VideoMME和VideoMMMU侧重于语义感知,模型可达80%准确率,但 VSI-Super要求更高层次的空间认知和预测建模,当前范式远远不足。团队通过诊断测试显 示,许多基准更依赖语言先验而非视觉感知,例如使用帧字幕代替多帧输入时性能提升,这 强调了重新设计任务以推动超感知的必要性。
范式转变的呼唤
VSI-Super的挑战超越了空间推理本身,指向当前MLLM范式的根本局限性。
未来模型不应依赖数据、参数或上下文长度的简单扩展,而需学习内部世界模型进行感知和预测。 人类通过选 择性注意和无意识推理高效处理输入,这种预测性机制是核心。团队建议利用惊讶度来驱动 事件分割和记忆管理,实现分而治之的策略。这呼唤一场范式转变:从反应式处理到主动式 体验。尽管在现行框架内可通过工程改进取得进展,但真正突破需重新思考架构。空间超感 知不仅是技术目标,更是迈向通用智能的关键一步,激励研究者探索更生物启发的方法。
结语:迈向超感知的未来
谢赛宁团队的工作不仅提出了新范式,还激发了整个领域的深度反思。空间超感知代表了一 种愿景:让AI像人类一样真正体验世界。
这条路虽漫长,但每一步都 值得探索。 研究者鼓励社区阅读详细论文,参与讨论。不确定方向是否正确,但确 信当前范式不足。通过Cambrian-S项目,团队迈出了第一步,未来需更多创新来克服计算效 率、泛化能力和认知机制等挑战。最终,超感知将使AI在现实世界中成为智能体,而不仅仅 是工具。这不仅是技术进化,更是智能本质的重新定义。
参考
论文标题:Cambrian-S: Towards Spatial Supersensing in Video
论文地址:https://arxiv.org/pdf/2511.04670
项目主页:https://cambrian-mllm.github.io/
代码地址:https://github.com/cambrian-mllm/cambrian-s

