>

CVPR 2025 | 南洋理工 & 港大突破性方案！cdViews 仅用 2D 视觉语言模型，零样本刷新 3D-QA SOTA

>

0

0



CVPR 2025 | 南洋理工 & 港大突破性方案！cdViews 仅用 2D 视觉语言模型，零样本刷新 3D-QA SOTA

CVPR 2025 | 南洋理工 & 港大突破性方案！cdViews 仅用 2D 视觉语言模型，零样本刷新 3D-QA SOTA

Hello World Model

2025-12-12

1

导读：点击下方名片，获取你的下一个灵感实例。在计算机视觉领域，三维问答（3D-QA）一直是极具挑战性的任务。

点击下方名片，获取你的下一个灵感实例。

在计算机视觉领域，三维问答（3D-QA）一直是极具挑战性的任务。传统方法要么依赖稀缺的三维标注数据，要么需要复杂的三维特征与语言对齐，效果往往不尽如人意。而最近发表的论文《3D Question Answering via only 2D Vision-Language Models》提出了一种颠覆性思路：仅用预训练的二维视觉语言模型（LVLM），通过零样本推理就能解决3D-QA任务。这项研究不仅在性能上超越了现有三维或混合方法，更将推理时间减少57%，为三维场景理解开辟了全新路径。

论文信息

题目：3D Question Answering via only 2D Vision-Language Models

基于纯二维视觉语言模型的三维问答方法

作者：Fengyun Wang, Sicheng Yu, Jiawei Wu, Jinhui Tang, Hanwang Zhang, Qianru Sun

源码：https://github.com/fereenwong/cdViews

三维问答的困境与破局思路

三维场景理解面临的核心难题在于数据稀缺性。与二维任务拥有海量标注数据不同，三维领域缺乏大规模的三维-语言配对数据，导致三维模型难以学习有效的特征对齐。现有方法要么直接使用三维点云（性能受限），要么混合二维与三维特征（需复杂对齐），都未能充分利用预训练二维LVLM的强大能力。

本文提出的解决方案直击痛点：完全规避三维与语言的直接对齐，通过精心选择的二维视图，让预训练二维LVLM“间接”理解三维场景。就像人类通过多张照片就能脑补出物体的三维结构，模型通过关键视图的组合也能实现三维问答。

cdViews框架：关键与多样视图的智能选择

要让二维模型理解三维场景，视图选择的质量至关重要。论文设计的cdViews框架（关键多样性视图选择框架）完美解决了这一问题，其总体结构如下：

从图中可以清晰看到，cdViews作为轻量级插件模块，无缝集成在视觉编码器与LVLM之间，包含两大核心组件：

1. viewSelector：精准锁定关键视图

viewSelector的核心功能是筛选对回答问题最关键的视图。与传统图像检索仅匹配问题文本不同，它能识别包含答案所需关键信息的视图。例如，当被问及“桌子上有什么？”时，它会优先选择能清晰展示桌面物品的视图，而非仅包含“桌子”的冗余画面。

为了训练这个模块，论文创新性地设计了viewAnnotator自动化标注工具，无需人工标注即可生成训练数据：

标题生成：将问题-答案对转化为描述性标题（如“问题：椅子是什么颜色？答案：红色”→“一张红色椅子的照片”）
视图匹配：利用预训练LVLM判断每个视图与标题的匹配度，自动生成正负样本标签

2. viewNMS：消除冗余保障多样性

即使选出关键视图，也可能存在空间重叠（如相邻角度拍摄的相似视图）。viewNMS模块通过相机参数计算视图距离，去除重叠冗余视图，确保选中的视图能覆盖场景的不同区域。

距离计算同时考虑相机的位置和方向：

位置距离：相机空间坐标的欧氏距离
方向距离：通过四元数转换计算的角度差异

两者结合能有效衡量视图的空间重叠度，让最终选择的视图既关键又全面。

实验验证：性能与效率的双重突破

在ScanQA和SQA两大权威基准测试中，cdViews框架展现出惊人实力：

1. 超越三维与混合方法

从表格数据可见，仅使用二维视图的cdViews方法，在关键指标CIDEr上显著优于三维方法（如BridgeQA）和混合方法，尤其在ScanQA测试集上实现了15%-21%的提升。这证明预训练二维LVLM的语言对齐能力，完全可以通过合理的视图选择迁移到三维任务中。

2. 视图选择方法的碾压性优势

对比实验清晰显示：

均匀采样（随机选图）性能最差（EM@1=28.3%）
图像检索（匹配问题文本）略有提升（EM@1=29.1%）
cdViews（关键+多样）表现最佳（EM@1=30.1%），且仅需9个视图（不到其他方法的一半）

3. 效率提升显著

cdViews仅含5.9M参数，相比图像检索方法：

参数减少100倍
计算量（FLOPs）减半
推理时间减少57%

这种“轻量级”特性使其极易部署到实际应用中。

定性分析：视图选择的艺术

左图展示了传统图像检索的局限性：选择的视图虽与“沙发”相关，但无法体现“沙发数量”这一关键信息。右图的cdViews则精准选中能清晰显示三个沙发的视图，完美支撑答案生成。

另一组对比（下图）更直观呈现了cdViews的优势：

面对“椅子是什么颜色”的问题，cdViews选择的视图能直接看到椅子全貌，而图像检索结果被其他物体遮挡，导致回答错误。

结语：二维模型的三维潜力

这项研究的意义远超3D-QA任务本身：它证明了预训练二维LVLM的强大迁移能力，为解决其他三维视觉语言任务（如三维字幕生成、场景导航）提供了全新思路。通过巧妙的视图选择策略，我们完全可以规避三维数据稀缺的困境，让成熟的二维模型在三维世界大放异彩。

随着视图选择技术的进一步优化，未来或许无需专门训练三维模型，就能实现更复杂的三维场景理解。这不仅能大幅降低开发成本，更能加速三维AI应用的落地进程。

【声明】内容源于网络

0

0

Hello World Model

欢迎关注。分享大模型相关论文，学习心得。

内容 15

粉丝 0

Hello World Model 欢迎关注。分享大模型相关论文，学习心得。

总阅读19

粉丝0

内容15