大数跨境
0
0

空间超感知,多模态LLM新范式:谢赛宁、李飞飞、LeCun新作

空间超感知,多模态LLM新范式:谢赛宁、李飞飞、LeCun新作 AI驱动数字化转型
2025-11-28
5
导读:当谢赛宁、李飞飞和Yann LeCun这样的顶尖研究者联手,总能让科技界为之震动。他们最新提出的「空间超感知」概念,不仅仅是一个技术突破,更是对人工智能未来方向的深度思考。

点击蓝字,关注我们




引言:重新定义智能的边界

当谢赛宁、李飞飞和Yann LeCun这样的顶尖研究者联手,总能让科技界为之震动。他们最新提出的「空间超感知」概念,不仅仅是一个技术突破,更是对人工智能未来方向的深度思考。

我们是否过于依赖现有的多模态模型,而忽略了感知的本质? 这个问题直击人心,引发无数从业者的共鸣。人 类感知世界的方式是如此自然,但机器却仍在挣扎。谢赛宁团队没有急于推出Cambrian-2或3,而是停下来反思:什么才是真正的多模态智能?LLM范式是否适合感知建模?为什么人类感知如此轻松却又强大?这些思考催生了「空间超感知」的诞生,它代表了一种根本性的转变—— 从单纯处理数据到真正体验世界。 

什么是空间超感知?

空间超感知不是更先进的传感器或更好的摄像头,而是数字生命体如何吸收无尽输入流并持续学习的能力。

它就像眼睛是大脑感知外部世界的那部分,智能必须建立在感知之上。 谢赛宁团队将多模态智能的发展路径划分为五个阶段:从仅语言理解到语义感知、流式事件认知、隐式3D空间认知,最终到预测性 世界建模。当前模型大多停留在语义感知阶段,将像素解析为对象和关系,但缺乏对3D空间 和未来预测的能力。视频作为终极媒介,是人类体验的直接投影,团队通过Cambrian-S项目 探索视频中的空间超感知,训练潜变量帧预测头,利用「惊讶度」来优化记忆管理和事件分割。这虽是一个玩具级模型,但已在VSI-Super基准上超越Gemini,显示出巨大潜力。 

基准测试:VSI-Super的挑战

为了衡量空间超感知,团队审计了现有视频MLLM基准,发现它们侧重于语言理解和语义感 知,忽略了高级空间和时间推理。

VSI-Super基准专门设计用于探测流式场景中的空间智能,包括VSR和VSC两部分。 VSR要求模型在长视频中回忆异常物体位置,类似于「大海捞针」测试,但保持真实感并通过顺序回忆扩展挑战。VSC 则测试模型在变化视角下持续计数目标物体的能力,要求处理重复目击和场景转换。这些任务对人类直观简单,但对机器极具挑战性,暴露了当前模型对统计模式的过度依赖。基准支 持任意长度视频,从10分钟到240分钟,旨在超越固定上下文窗口,呼唤真正泛化能力。 

当前模型的局限性

团队评估了最新Gemini-2.5-Flash模型,发现在VSI-Super上表现不佳。即使上下文长度达 到百万token,模型在处理两小时视频时仍达到限制,性能有限。

这揭示了一个残酷现实:仅靠规模扩张无法解决根本问题。 模型预测的计数饱和在很小值,未能随视频长度扩 展,表明缺乏泛化性。人类能 effortlessly 整合数小时感官信息,但模型缺少持续感知和 记忆机制。现有基准如VideoMME和VideoMMMU侧重于语义感知,模型可达80%准确率,但 VSI-Super要求更高层次的空间认知和预测建模,当前范式远远不足。团队通过诊断测试显 示,许多基准更依赖语言先验而非视觉感知,例如使用帧字幕代替多帧输入时性能提升,这 强调了重新设计任务以推动超感知的必要性。 

范式转变的呼唤

VSI-Super的挑战超越了空间推理本身,指向当前MLLM范式的根本局限性。

未来模型不应依赖数据、参数或上下文长度的简单扩展,而需学习内部世界模型进行感知和预测。 人类通过选 择性注意和无意识推理高效处理输入,这种预测性机制是核心。团队建议利用惊讶度来驱动 事件分割和记忆管理,实现分而治之的策略。这呼唤一场范式转变:从反应式处理到主动式 体验。尽管在现行框架内可通过工程改进取得进展,但真正突破需重新思考架构。空间超感 知不仅是技术目标,更是迈向通用智能的关键一步,激励研究者探索更生物启发的方法。 

alt

结语:迈向超感知的未来

谢赛宁团队的工作不仅提出了新范式,还激发了整个领域的深度反思。空间超感知代表了一 种愿景:让AI像人类一样真正体验世界。

这条路虽漫长,但每一步都 值得探索。 研究者鼓励社区阅读详细论文,参与讨论。不确定方向是否正确,但确 信当前范式不足。通过Cambrian-S项目,团队迈出了第一步,未来需更多创新来克服计算效 率、泛化能力和认知机制等挑战。最终,超感知将使AI在现实世界中成为智能体,而不仅仅 是工具。这不仅是技术进化,更是智能本质的重新定义。 

alt

参考

  • 论文标题:Cambrian-S: Towards Spatial Supersensing in Video

  • 论文地址:https://arxiv.org/pdf/2511.04670

  • 项目主页:https://cambrian-mllm.github.io/

  • 代码地址:https://github.com/cambrian-mllm/cambrian-s

【声明】内容源于网络
0
0
AI驱动数字化转型
专注AI,促进智造行业数据衍生,服务智能制造企业的数字化、智能化,聚焦大模型私域部署、大模型微调、数据清洗、AI模型训练、私域知识库及agent技术延展等。行业智能,落地为先。
内容 787
粉丝 0
AI驱动数字化转型 专注AI,促进智造行业数据衍生,服务智能制造企业的数字化、智能化,聚焦大模型私域部署、大模型微调、数据清洗、AI模型训练、私域知识库及agent技术延展等。行业智能,落地为先。
总阅读80
粉丝0
内容787