大数跨境
0
0

CVPR 2025 | 南洋理工 & 港大突破性方案!cdViews 仅用 2D 视觉语言模型,零样本刷新 3D-QA SOTA

CVPR 2025 | 南洋理工 & 港大突破性方案!cdViews 仅用 2D 视觉语言模型,零样本刷新 3D-QA SOTA Hello World Model
2025-12-12
1
导读:点击下方名片,获取你的下一个灵感实例。在计算机视觉领域,三维问答(3D-QA)一直是极具挑战性的任务。

点击下方名片,获取你的下一个灵感实例。

在计算机视觉领域,三维问答(3D-QA)一直是极具挑战性的任务。传统方法要么依赖稀缺的三维标注数据,要么需要复杂的三维特征与语言对齐,效果往往不尽如人意。而最近发表的论文《3D Question Answering via only 2D Vision-Language Models》提出了一种颠覆性思路:仅用预训练的二维视觉语言模型(LVLM),通过零样本推理就能解决3D-QA任务。这项研究不仅在性能上超越了现有三维或混合方法,更将推理时间减少57%,为三维场景理解开辟了全新路径。

论文信息

题目:3D Question Answering via only 2D Vision-Language Models

基于纯二维视觉语言模型的三维问答方法

作者:Fengyun Wang, Sicheng Yu, Jiawei Wu, Jinhui Tang, Hanwang Zhang, Qianru Sun

源码:https://github.com/fereenwong/cdViews

三维问答的困境与破局思路

三维场景理解面临的核心难题在于数据稀缺性。与二维任务拥有海量标注数据不同,三维领域缺乏大规模的三维-语言配对数据,导致三维模型难以学习有效的特征对齐。现有方法要么直接使用三维点云(性能受限),要么混合二维与三维特征(需复杂对齐),都未能充分利用预训练二维LVLM的强大能力。

本文提出的解决方案直击痛点:完全规避三维与语言的直接对齐,通过精心选择的二维视图,让预训练二维LVLM“间接”理解三维场景。就像人类通过多张照片就能脑补出物体的三维结构,模型通过关键视图的组合也能实现三维问答。

cdViews框架:关键与多样视图的智能选择

要让二维模型理解三维场景,视图选择的质量至关重要。论文设计的cdViews框架(关键多样性视图选择框架)完美解决了这一问题,其总体结构如下:

从图中可以清晰看到,cdViews作为轻量级插件模块,无缝集成在视觉编码器与LVLM之间,包含两大核心组件:

1. viewSelector:精准锁定关键视图

viewSelector的核心功能是筛选对回答问题最关键的视图。与传统图像检索仅匹配问题文本不同,它能识别包含答案所需关键信息的视图。例如,当被问及“桌子上有什么?”时,它会优先选择能清晰展示桌面物品的视图,而非仅包含“桌子”的冗余画面。

为了训练这个模块,论文创新性地设计了viewAnnotator自动化标注工具,无需人工标注即可生成训练数据:

  • 标题生成:将问题-答案对转化为描述性标题(如“问题:椅子是什么颜色?答案:红色”→“一张红色椅子的照片”)
  • 视图匹配:利用预训练LVLM判断每个视图与标题的匹配度,自动生成正负样本标签

2. viewNMS:消除冗余保障多样性

即使选出关键视图,也可能存在空间重叠(如相邻角度拍摄的相似视图)。viewNMS模块通过相机参数计算视图距离,去除重叠冗余视图,确保选中的视图能覆盖场景的不同区域。

距离计算同时考虑相机的位置和方向:

  • 位置距离:相机空间坐标的欧氏距离
  • 方向距离:通过四元数转换计算的角度差异

两者结合能有效衡量视图的空间重叠度,让最终选择的视图既关键又全面。

实验验证:性能与效率的双重突破

在ScanQA和SQA两大权威基准测试中,cdViews框架展现出惊人实力:

1. 超越三维与混合方法

从表格数据可见,仅使用二维视图的cdViews方法,在关键指标CIDEr上显著优于三维方法(如BridgeQA)和混合方法,尤其在ScanQA测试集上实现了15%-21%的提升。这证明预训练二维LVLM的语言对齐能力,完全可以通过合理的视图选择迁移到三维任务中。

2. 视图选择方法的碾压性优势

对比实验清晰显示:

  • 均匀采样(随机选图)性能最差(EM@1=28.3%)
  • 图像检索(匹配问题文本)略有提升(EM@1=29.1%)
  • cdViews(关键+多样)表现最佳(EM@1=30.1%),且仅需9个视图(不到其他方法的一半)

3. 效率提升显著

cdViews仅含5.9M参数,相比图像检索方法:

  • 参数减少100倍
  • 计算量(FLOPs)减半
  • 推理时间减少57%

这种“轻量级”特性使其极易部署到实际应用中。

定性分析:视图选择的艺术

左图展示了传统图像检索的局限性:选择的视图虽与“沙发”相关,但无法体现“沙发数量”这一关键信息。右图的cdViews则精准选中能清晰显示三个沙发的视图,完美支撑答案生成。

另一组对比(下图)更直观呈现了cdViews的优势:

面对“椅子是什么颜色”的问题,cdViews选择的视图能直接看到椅子全貌,而图像检索结果被其他物体遮挡,导致回答错误。

结语:二维模型的三维潜力

这项研究的意义远超3D-QA任务本身:它证明了预训练二维LVLM的强大迁移能力,为解决其他三维视觉语言任务(如三维字幕生成、场景导航)提供了全新思路。通过巧妙的视图选择策略,我们完全可以规避三维数据稀缺的困境,让成熟的二维模型在三维世界大放异彩。

随着视图选择技术的进一步优化,未来或许无需专门训练三维模型,就能实现更复杂的三维场景理解。这不仅能大幅降低开发成本,更能加速三维AI应用的落地进程。

【声明】内容源于网络
0
0
Hello World Model
欢迎关注。分享大模型相关论文,学习心得。
内容 15
粉丝 0
Hello World Model 欢迎关注。分享大模型相关论文,学习心得。
总阅读19
粉丝0
内容15