

空间超感知，多模态LLM新范式：谢赛宁、李飞飞、LeCun新作

AI驱动数字化转型

2025-11-28

导读：当谢赛宁、李飞飞和Yann LeCun这样的顶尖研究者联手，总能让科技界为之震动。他们最新提出的「空间超感知」概念，不仅仅是一个技术突破，更是对人工智能未来方向的深度思考。

点击蓝字，关注我们

引言：重新定义智能的边界

当谢赛宁、李飞飞和Yann LeCun这样的顶尖研究者联手，总能让科技界为之震动。他们最新提出的「空间超感知」概念，不仅仅是一个技术突破，更是对人工智能未来方向的深度思考。

我们是否过于依赖现有的多模态模型，而忽略了感知的本质？这个问题直击人心，引发无数从业者的共鸣。人类感知世界的方式是如此自然，但机器却仍在挣扎。谢赛宁团队没有急于推出Cambrian-2或3，而是停下来反思：什么才是真正的多模态智能？LLM范式是否适合感知建模？为什么人类感知如此轻松却又强大？这些思考催生了「空间超感知」的诞生，它代表了一种根本性的转变—— 从单纯处理数据到真正体验世界。

什么是空间超感知？

空间超感知不是更先进的传感器或更好的摄像头，而是数字生命体如何吸收无尽输入流并持续学习的能力。

它就像眼睛是大脑感知外部世界的那部分，智能必须建立在感知之上。谢赛宁团队将多模态智能的发展路径划分为五个阶段：从仅语言理解到语义感知、流式事件认知、隐式3D空间认知，最终到预测性世界建模。当前模型大多停留在语义感知阶段，将像素解析为对象和关系，但缺乏对3D空间和未来预测的能力。视频作为终极媒介，是人类体验的直接投影，团队通过Cambrian-S项目探索视频中的空间超感知，训练潜变量帧预测头，利用「惊讶度」来优化记忆管理和事件分割。这虽是一个玩具级模型，但已在VSI-Super基准上超越Gemini，显示出巨大潜力。

基准测试：VSI-Super的挑战

为了衡量空间超感知，团队审计了现有视频MLLM基准，发现它们侧重于语言理解和语义感知，忽略了高级空间和时间推理。

VSI-Super基准专门设计用于探测流式场景中的空间智能，包括VSR和VSC两部分。 VSR要求模型在长视频中回忆异常物体位置，类似于「大海捞针」测试，但保持真实感并通过顺序回忆扩展挑战。VSC 则测试模型在变化视角下持续计数目标物体的能力，要求处理重复目击和场景转换。这些任务对人类直观简单，但对机器极具挑战性，暴露了当前模型对统计模式的过度依赖。基准支持任意长度视频，从10分钟到240分钟，旨在超越固定上下文窗口，呼唤真正泛化能力。

当前模型的局限性

团队评估了最新Gemini-2.5-Flash模型，发现在VSI-Super上表现不佳。即使上下文长度达到百万token，模型在处理两小时视频时仍达到限制，性能有限。

这揭示了一个残酷现实：仅靠规模扩张无法解决根本问题。模型预测的计数饱和在很小值，未能随视频长度扩展，表明缺乏泛化性。人类能 effortlessly 整合数小时感官信息，但模型缺少持续感知和记忆机制。现有基准如VideoMME和VideoMMMU侧重于语义感知，模型可达80%准确率，但 VSI-Super要求更高层次的空间认知和预测建模，当前范式远远不足。团队通过诊断测试显示，许多基准更依赖语言先验而非视觉感知，例如使用帧字幕代替多帧输入时性能提升，这强调了重新设计任务以推动超感知的必要性。

范式转变的呼唤

VSI-Super的挑战超越了空间推理本身，指向当前MLLM范式的根本局限性。

未来模型不应依赖数据、参数或上下文长度的简单扩展，而需学习内部世界模型进行感知和预测。人类通过选择性注意和无意识推理高效处理输入，这种预测性机制是核心。团队建议利用惊讶度来驱动事件分割和记忆管理，实现分而治之的策略。这呼唤一场范式转变：从反应式处理到主动式体验。尽管在现行框架内可通过工程改进取得进展，但真正突破需重新思考架构。空间超感知不仅是技术目标，更是迈向通用智能的关键一步，激励研究者探索更生物启发的方法。

结语：迈向超感知的未来

谢赛宁团队的工作不仅提出了新范式，还激发了整个领域的深度反思。空间超感知代表了一种愿景：让AI像人类一样真正体验世界。

这条路虽漫长，但每一步都值得探索。研究者鼓励社区阅读详细论文，参与讨论。不确定方向是否正确，但确信当前范式不足。通过Cambrian-S项目，团队迈出了第一步，未来需更多创新来克服计算效率、泛化能力和认知机制等挑战。最终，超感知将使AI在现实世界中成为智能体，而不仅仅是工具。这不仅是技术进化，更是智能本质的重新定义。

参考

论文标题：Cambrian-S: Towards Spatial Supersensing in Video
论文地址：https://arxiv.org/pdf/2511.04670
项目主页：https://cambrian-mllm.github.io/
代码地址：https://github.com/cambrian-mllm/cambrian-s

【声明】内容源于网络

AI驱动数字化转型

专注AI，促进智造行业数据衍生，服务智能制造企业的数字化、智能化，聚焦大模型私域部署、大模型微调、数据清洗、AI模型训练、私域知识库及agent技术延展等。行业智能，落地为先。

内容 787

粉丝 0

AI驱动数字化转型专注AI，促进智造行业数据衍生，服务智能制造企业的数字化、智能化，聚焦大模型私域部署、大模型微调、数据清洗、AI模型训练、私域知识库及agent技术延展等。行业智能，落地为先。

总阅读80

粉丝0

内容787