

告别专业检测器！LMM-Det开创多模态模型自主检测新时代

InfraLink

2025-12-01

导读：精简阅读版本本文主要解决了什么问题1. 大型多模态模型（LMMs）在目标检测任务上与专业检测器存在显著差距

精简阅读版本

本文主要解决了什么问题

1. 大型多模态模型（LMMs）在目标检测任务上与专业检测器存在显著差距的问题。尽管LMMs在图像描述、视觉问答等多模态任务中表现出色，但其目标检测能力明显不足。
2. 传统方法将额外检测模块与LMMs结合，但这种方法受限于额外模块的性能，引入额外延迟，且未能充分探索LMMs独立执行目标检测任务的潜力。
3. LMMs在目标检测时召回率低的问题。研究发现LMMs通常生成少量候选边界框，导致目标检测性能不佳，这是造成性能差距的主要原因。

本文的核心创新是什么

1. 提出了LMM-Det，一种简单而有效的方法，利用大型多模态模型进行基础目标检测，无需依赖专门的检测模块。作者主张大型多模态模型本身就具备检测能力。
2. 引入了数据分布调整策略，通过半监督学习方法生成高质量伪标签，并与原始真实标签合并，调整训练数据分布，提高模型的召回率。
3. 提出了推理优化方法，不再一次性输出所有边界框，而是让模型一次性输出仅属于一个类别的所有目标，并重复此步骤多次，从而提高候选框数量和召回率。

结果相较于以前的方法有哪些提升

1. 在COCO数据集上的零样本评估中，LMM-Det取得了最佳结果，显著优于其他LMM模型。例如，LLaVA在COCO上仅取得0.2 AP，而LMM-Det在不需要大量检测数据和专业模型的情况下表现出色。
2. 在微调实验中，LMM-Det缩小了传统最先进检测模型与大型多模态模型之间的性能差距，支持了LMMs可以内在地执行目标检测，而无需额外专业检测模型的观点。
3. LMM-Det不仅展现出检测能力，还保留了如字幕生成和多模态问答等固有多模态能力，实现了多功能性。

局限性

LMM-Det存在不可忽视的推理时间延迟，使其在传统实时检测方面竞争力较弱。作者计划在未来工作中减少LMM-Det的推理时间。

深入阅读版本

导读

大型多模态模型（LMMs）在人工智能研究和工业界引起了广泛关注和兴趣，这得益于其在多模态理解、推理和情境学习等方面的卓越能力。尽管LMMs在图像描述、视觉问答和视觉定位等多模态任务中取得了令人鼓舞的成果，但其目标检测能力与专业检测器相比存在显著差距。为弥补这一差距，作者摒弃了将重型检测器与LMMs结合的传统方法，提出了LMM-Det，这是一种简单而有效的方法，它利用大型多模态模型进行基础目标检测，而无需依赖专门的检测模块。具体而言，当大型多模态模型遇到目标检测任务时，作者进行了全面的探索性分析，揭示其召回率与专业检测模型相比显著下降。为缓解这一问题，作者提出通过引入针对目标检测的数据分布调整和推理优化来提高召回率。作者重新组织指令对话，以增强大型多模态模型的目标检测能力。作者主张，大型多模态模型本身就具备检测能力，无需任何额外的检测模块。大量实验支持作者的主张，并展示了多功能LMM-Det的有效性。

数据集、模型和代码在 https://github.com/360CVGroup/LMM-Det

1. 引言

大型多模态模型（LMMs）[1, 8, 18, 23, 38, 47, 53] 近年来因其卓越的跨多种形式数据（如文本、图像、语音和视频）的理解和处理能力而备受关注。LMMs 在弥合不同模态之间的差距方面表现出显著的有效性，从而实现更高效的人机交互。特别是，LMMs 在图像描述[19]、视觉问答（VQA）[56]和视觉定位[7]等多种多模态任务中展现出优异的性能。以图像描述为例，GPT 助手为用户输入的图像生成详细的文本描述。此外，VQA 和视觉定位的目标是生成符合用户需求的、详细且具有上下文相关性的响应。这些任务表明，大型多模态模型能够在细粒度层面上对齐图像和文本，这对于目标检测和分割等细粒度图像-文本理解任务具有巨大的潜力。

通常而言，目标检测是计算机视觉领域的一项基础任务，它作为分类的延伸和分割的基础而存在。此外，获取目标的位置和类别对于有效的视觉理解至关重要。尽管大型多模态模型在多种多模态任务中表现出色，但它们的目标检测能力在最近的研究中仍未被充分探索。与传统最先进的检测方法相比，LMMs存在显著差距。

为了弥补这一差距，现有方法[27, 42]尝试将额外的模块集成到语言模型中（LMMs），例如专门的检测模型[25, 34]或区域 Proposal 网络（RPN）[33]。尽管这些方法能够在用户对话中实现检测功能，但它们受限于额外模块的性能，并在推理过程中引入了额外的延迟。更重要的是，它们并未充分探索LMMs独立执行目标检测任务的潜力。另一方面，一些研究[7, 21, 30, 32, 49, 52]使LMMs直接输出目标类别和边界框坐标，在视觉定位任务（如指代表达理解 REC 和阶段定位）中展示了检测能力。例如，KOSMOS-2[30]将定位能力集成到下游应用中，并提供了相应的边界框。Shikra[7]设计了一种无需预/后检测模块和外部插件模型的简单架构，以解锁LMMs的定位能力。然而，这些工作完成纯目标检测并非易事，因为纯目标检测需要定位并分类图像中的所有目标。

大型多模态模型展现出细粒度的图像文本对齐能力和初步的检测能力（例如REC），这一观察结果促使作者进一步研究这一现象。作者的目标是探索大型多模态模型在不依赖额外专用检测模块的情况下执行目标检测任务的能力。为此，作者强调当大型多模态模型遇到目标检测时面临的以下固有挑战。

现有的大规模多模态模型[7, 27, 30]在评估其检测能力时，通常使用RefCOCO[16]而非专业检测基准如COCO[22]，尽管它们在预训练阶段使用了大规模目标检测数据集（例如Object365[35]、LVIS[10]、OpenImages[17]或COCO）。此外，在指令微调阶段，针对基础目标检测的定制指令数据往往被忽视，导致在图像中难以准确定位和识别目标。这阻碍了机器人在机器人、自动驾驶和增强现实等领域的实际应用[27]。

另一方面，大型多模态模型通常生成少量候选边界框，导致目标检测性能不佳。例如，LLaVA [23] 在检测所有目标时表现出次优性能，如图1所示，其使用以下 Prompt ："如果图像中存在该句子描述的区域，请提供该区域的边界框坐标：<类别>" 对于每个 Query ，LLaVA仅生成少量边界框，且大多数不准确，导致目标检测任务召回率低。

本文对专业目标检测模型与大语言模型之间的性能差距进行了全面分析。具体而言，作者在COCO这一专业目标检测基准数据集上评估了大语言模型。通过样本可视化和分布比较，作者指出目标检测任务性能欠佳的根本原因是召回率低。为解决这一问题，作者提出了LMM-Det，这是一种简单而有效的策略，旨在使大语言模型在目标检测任务中表现优异。作者建议通过调整训练数据分布来提高召回率，因为作者观察到训练后的模型倾向于逼近这一分布。此外，作者还引入了推理优化，并提出了一个指令调优数据集。

总而言之，作者的主要贡献如下：

• 作者专注于探索大型多模态模型的检测能力，以释放其在实际应用中的全部潜力。为此，作者提供全面的分析，以促进大型多模态模型的检测性能提升。
• 作者提出了一种简单而有效的方法，命名为LMMDet，该方法无需任何额外的检测模块。作者引入了数据分布调整和推理优化，以在大型多模态模型遇到目标检测时提高固有的召回率。
• 大量实验表明，LMM-Det不仅展现出检测能力，还保留了如字幕生成和多模态问答等固有多模态能力。

2. 目标检测中LMMs的检验

为评估和分析大型多模态模型（LMMs）的检测性能，作者首先从数据规模和图像分辨率的角度设计了一系列实验。随后，作者进行了深入分析，以促进LMMs在目标检测任务中的更好适应性。在本节中，作者使用标准大型多模态模型LLaVA-7B [23] 进行所有实验。作者选择RT-DETR [55] 作为对比的代表专家检测器。

2.1. 探索性实验

本节通过探索性实验评估了LMMs的检测能力，具体实现细节请参见附录A的Section A。

COCO上的零样本评估。一种直接检验LMM检测性能的方法是通过零样本评估。因此，作者首先使用LLaVA [23]在COCO数据集上进行零样本实验。定性结果如图1所示，定量结果见表1的第一行。实验结果表明，在零样本设置下，LLaVA在COCO数据集上的检测性能较差，这可能是由于其训练过程中缺少COCO数据所致。

使用COCO进行有监督微调。为了验证上述主张，作者随后利用COCO进行有监督微调。如表1的第二行和第三行所示，检测数据的加入（即COCO）显著提升了AP，尽管仍有进一步改进的空间。受传统目标检测方法中扩大数据规模是提高检测精度的有效技术的启发，作者尝试通过增加额外的检测数据来使大型多模态模型在目标检测方面表现出色。

扩展检测数据。如前所述，作者在训练过程中通过加入Object365来扩展检测数据。从表1的第四行可以看出，增加更多数据并未显著提升性能。可能的原因是：(1) 输入图像分辨率较低，不足以进行目标检测；(2) COCO数据的指令组织需要改进。

提升图像分辨率。为确保与专业检测器的公平比较，作者采用插值方法将图像分辨率从336提升至644，从而与其原生分辨率对齐。如表1的第5-6行所示，使用更高输入分辨率对Object365进行集成确实显著提升了检测性能。然而，尽管在相似分辨率和相同检测数据规模上进行训练，LLaVA的性能仍远逊于传统专业模型。

2.2. 现象分析

为了缩小轻量级模型（LMMs）与专业检测模型之间的性能差距，作者研究了其根本原因。

预测结果与真实标签的可视化。作者在图2的底部行中可视化了生成的边界框及其对应的类别和真实标签（GT）。尽管在平均精度（AP）上比专家模型低1.5%，但可视化结果令人满意。根据图1中指定的标准，作者用不同颜色的框绘制结果，并在图2的顶部行中展示。作者观察到，被判定为误报的红色边界框实际上具有正确的预测标签。同时，真实标签（GT）的标注并不完整，例如"book"。此外，作者的统计结果（附录中的表A所示）表明，在COCO数据集的训练集和验证集中，每张图像的平均边界框数量约为7，这也与训练模型产生的框数相匹配。一个可能的原因是，训练模型已经适应了COCO数据集的数据分布。

分布比较。作者提供了预测和真实值的盒分布，以进一步分析上述观察结果。从图3可以看出，预测的盒分布近似于COCO训练集。然而，不完整的真实值标注导致预测过早截断，从而生成少量边界框。此外，当前简单的自回归训练配方导致预测的边界框数量少于专业检测模型。

实际上，传统的目标检测方法在候选区域（proposals）上保持适当的召回率，例如在Faster RCNN [33]中使用300个候选区域，或在H-Deformable-DETR [15]中使用900个候选区域，以平衡检测性能和计算成本。在这种情况下，召回率不足会显著降低检测性能。然而，由于大型多模态模型（LMMs）在未完成的GT标注下，其下一词预测损失（next-token prediction loss）存在固有局限性，因此让大型多模态模型充当区域 Proposal 网络（RPN）[33]并生成大量高质量候选区域具有挑战性。因此，提高召回率对于提升大型多模态模型的整体检测性能至关重要。

3. LMM-Det

本节介绍了LMM-Det，它通过提高召回率来增强LMMs的检测能力。作者首先在3.1节中介绍模型架构。LMM-Det的改进包括数据分布调整（3.2节）和推理优化（3.3节）。

3.1. 初步：模型架构

如图4（c）所示，LMM-Det由一个视觉编码器、一个 Projector 和一个大语言模型组成。

视觉编码器。LMM-Det采用OWLv2-ViT模型[28]作为视觉编码器，该模型支持高分辨率图像输入（）并能捕获用于目标检测的详细信息。作者不压缩视觉 Token 序列，而是直接将其输入LMMs。

Projector 。LLaVA [23] 证明了线性 Projector 足以实现视觉语言对齐。此外，Honeybee [4] 表明线性 Projector 可以通过一对一投影无损地保留视觉特征的局部上下文。因此，作者使用线性 Projector 将视觉特征映射到文本 Token 的嵌入空间。

大语言模型。作者使用Vicuna-1.5-7B作为大语言模型，其最大序列长度为16,000。LMM-Det通过语言模型损失范式进行训练，以执行 Token 预测。形式上，给定图像和结构良好的指令文本 Token ，作者最大化以下优化问题：

其中是可训练参数，是来自视觉编码器和 Projector 的视觉 Token ，是来自大语言模型分词器的指令文本 Token ，是当前预测 Token 之前的指令数据中的答案 Token ，是输出序列的长度。

3.2. 数据分布调整

如第二节所述，训练集中的不完整真实标注可能导致大型多模态模型的预测过早截断。为缓解这一问题，作者调整训练集的数据分布，因为训练后的大型多模态模型倾向于逼近这种分布。此外，数据分布调整过程应实现提高召回率的目标，以增强大型多模态模型的检测性能。为此，一种可能的方案是采用自训练策略，即由大型多模态模型生成伪标签，并使用真实标签进行迭代训练。然而，在缺乏强大目标检测能力的大型多模态模型中，生成高质量伪标签可能面临挑战。在本工作中，作者采用半监督学习策略调整训练数据分布，提高召回率，从而提升大型多模态模型的检测精度。

具体而言，LMMDet的数据分布调整包含三个步骤：1）伪标签生成。此步骤旨在为训练集中的不完整真实标注准备更多高质量数据。2）数据合并与设计。将生成的伪标签和原始真实标签进行合并，并设计以应用于LMMs的目标检测。3） Token 表示验证。作者研究了不同的 Token 表示方法，用于表示坐标和置信度分数。

伪标签生成。作者通过添加高质量的伪标签来增强真实标签的多样性。具体而言，作者使用预训练的专业检测器（即SalienceDETR [13]）生成多个伪标签。在此意义上，作者提出了大量改进大型多模态模型整体检测性能的建议。值得注意的是，作者的修改仅涉及数据缩放，而作者的LLM-Det架构在整个预训练和监督微调阶段都不依赖于额外的检测模块。

数据合并与设计。为了移除冗余的边界框并进一步提升数据质量，作者通过执行非极大值抑制（NMS）将生成的伪标签与原始真实标签进行合并。此外，由于缺乏每个预测边界框的置信度得分，现有的数据组织方式在COCO数据集上计算平均精度（AP）时并不简单。在实践中，作者通过经验观察发现，通过每个坐标 Token （经过softmax后）的平均概率计算得到的置信度得分是不可区分的。为了解决这个问题，作者让大型多模态模型同时输出坐标和相应的置信度得分，而不仅仅是坐标。作者将置信度得分设置为1分配给真实标签，而伪标签的置信度得分由预训练的专业检测器确定。

Token Representation Verification. 作者研究了如何表示坐标及其对应的置信度分数。作者探索了两种替代方案：直接输出token预测和通过添加额外token扩展词汇表。第一种方法在不需要额外训练词汇嵌入的情况下增加了模型输出token的长度，而第二种方法则相反，需要额外训练词汇嵌入，但结果输出token的长度更短。第4.5节的实验表明，第一种方法实现了更好的检测精度。因此，所有实验均采用此方法。

通过调整训练数据分布，LMM-Det能够生成更准确且数量更多的边界框，从而提高召回率并进而提升整体检测性能。此外，作者通过实验证明，LMM-Det不仅能够近似检测数据分布，还能保持其原本近似其他数据分布的能力，例如图像描述生成和视觉问答，如第4.4节所示。

3.3. 针对检测优化的推理

在推理阶段，对于大型多模态模型在输入图像中检测所有目标的一种直接方法是为所有边界框同时进行预测，例如InternVL 2.5 [8]。然而，作者通过实验观察到，这种方法在固定采样策略的LMMs下难以生成足够的候选框。一个可能的原因是当前的LMMs难以在单次预测步骤中处理所有细粒度的图像细节。作者尝试优化这一解决方案，以使LMM-Det在推理时输出更多候选框，从而提高召回率。

具体而言，作者通过牺牲计算成本来提高LMM-Det的检测精度。作者不再一次性输出所有边界框，而是让LMM-Det一次性输出仅属于一个类别的所有目标，并重复此步骤多次。也就是说，LMM-Det独立地为每个类别预测边界框。为了保持推理和训练之间的一致性，作者重新组织指令对话，采用类别特定的预测策略。作者在附录的图B中展示了重新组织的数据。

4. 实验

4.1. 实现细节

训练配方。作者分三个连续阶段训练LMM-Det。附录中的表B总结了所有阶段的超参数。作者总共使用595K个图像-文本对和1.86M张图像来训练LMM-Det。在由6个节点组成的集群上，每个节点配备8块Nvidia H800 GPU，训练LMM-Det需要176小时。以下是每个阶段的详细信息。

第一阶段作者通过冻结视觉编码器和大语言模型，同时预训练 Projector 来对齐视觉和语言模块。具体而言，作者利用了LLaVA [23]中使用的595K图像-文本对。

第二阶段作者利用大规模目标检测数据集（即Object365 [35]）对提出的LMM-Det进行预训练。在此阶段，作者冻结视觉编码器，同时训练 Projector 和大语言模型。

第三阶段。作者基于COCO数据集重新组织了一个目标检测指令数据集（如图B所示，附录），COCO数据集是目标检测任务中广泛使用的基准。然后作者使用该指令数据集微调 Projector 和大语言模型，以进一步提高LMM-Det的检测能力。

第四阶段。在此阶段，Projector和大语言模型在冻结视觉编码器的情况下，使用 LLaVA [23] 数据集以及作者提出的重组指令数据，并采用与第三阶段相同的超参数进行训练。作者将其 Token 为 LMM-Det'。

推理与评估。作者在COCO验证集上评估LMM-Det的检测能力。对于验证集中的每个类别，作者构建相应的提问 Prompt 。作者收集所有预测输出，并将它们视为最终 Proposal 。作者评估平均精度均值（mAP）以获得定量结果。为简化，作者记AP为mAP。作者采用AP、、、、、和A 作为指标。

4.2. 零样本实验

在本节中，作者将LMM-Det与当前最先进的LMM在零样本设置下进行比较。作者采用了它们的官方训练模型，并以零样本方式测试。具体实现细节见附录。LMM-Det仅采用描述于第4.1节的两个阶段，并舍弃了阶段III。

从表2可以看出，LMM-Det在COCO数据集上以零样本方式取得了最佳结果，这表明其在检测数据上训练后具有检测潜力。LLaVA未在检测数据上进行训练，仅在COCO上取得了0.2 AP。像InternVL-2.5这样利用大量检测数据的模型，其性能优于数据有限的其他模型。结合专业检测模型的Groma也表现出色。在没有大量检测数据和专业模型的情况下，LMM-Det显著优于其他LMM模型，验证了作者的现象分析和所提出方法的有效性。

4.3. 微调实验

作者在COCO数据集上进一步微调LMM-Det。作者将LMM-Det与传统检测模型以及依赖于额外检测专家（即可执行目标检测任务的模型，即Groma [27]和VisionLLMv2 [42]）的LMM进行比较。具体而言，VisionLLMv2使用Grounding DINO作为额外的专家检测模型。为了进行全面的比较，作者还报告了Grounding DINO的结果。

如表3所示，传统的最先进检测模型在Groma的基础上，即使添加了专业检测模型，其性能依然优于Groma。类似地，VisionLLMv2虽然集成了Grounding DINO，但性能却有所下降。此外，作者使用COCO和Object365数据集重新训练了LLaVA。实验结果表明，传统最先进检测模型与大型多模态模型之间存在显著的性能差距。然而，LMMDet缩小了这一差距，支持了LMMs可以内在地执行目标检测，而无需额外专业检测模型的观点。

4.4. 多功能LMM检测

作者在图5中展示了LMM-Det在COCO验证集上的可视化结果，展示了其在无需额外专业检测器的情况下所表现出的检测性能。此外，定性和定量结果（分别如图6和表4所示）表明LMM-Det具有多功能性，支持LMM-Det不仅解锁了检测能力，还在图像描述和视觉问答方面保持了高性能。作者在附录的表500中提供了更多结果。

4.5. 消融实验

视觉编码器。在消融研究中，作者首先将CLIP-ViT [31] 替换为OWLv2-ViT [28] 以进一步提高输入分辨率。如表5第一行所示，该策略在AP上实现了3.4%的提升。作者进一步在附录的表E中研究了DINOv2 [29] 的有效性。

数据分布调整。该方法旨在解决召回率不足的挑战。表5显示，它有效提高了召回率并提升了整体检测性能。作者在附录图C中绘制了调整后的边界框分布。

推理优化。作者进一步研究了推理优化的有效性。从表5可以看出，该策略使得AP从44.2%显著提升至47.5%，AR@100从56.0%提升至63.6%。为了更好地展示召回率的提升效果，作者扩展了图2，并在附录的图D中展示了定性结果。

额外词汇的效果。作者研究了不同的 Token 表示方法来表示坐标和置信度分数。根据附录中的表F，直接输出 Token 比额外词汇实现了更好的性能，这与Shikra [7]的研究结果一致。

采样策略的有效性及推理成本。作者在推理过程中使用贪婪解码、束搜索和top-p采样进行了消融研究。附录中的表G显示，束搜索（beam ）取得了最佳结果，但需要更多的推理时间。具体而言，LMM-Det处理单张图像需要大约4.0秒的计算时间。

5. 相关工作

5.1. 大型多模态模型

关于大型多模态模型（LMMs）的开创性研究[5, 6, 9, 11, 19, 26, 36, 44-46, 48, 56]主要集中于视觉语言对齐，并支持图像描述和视觉问答等基本多模态任务。在此情况下，LMMs已展现出其在多模态任务方面的显著潜力。

为进一步展示视觉语言任务的全面能力，后续的大型多模态模型支持分辨率敏感任务，如视觉定位和光学字符识别（OCR）。这些模型利用精心策划的预训练和指令数据集，展示了一种有效策略，突显了它们强大的能力。这类LMMs涵盖了多种模型[2, 7, 8, 12, 14, 18, 20, 24, 30, 37, 39-41, 43, 47, 54]，例如Shikra、KOSMOS-2、Ferret v2、MiniCPM-V 2.6、DeepSeek-VL2、InternVL-2.5和Qwen2.5-VL。与粗粒度的视觉问答相比，这些LMMs的物体定位能力是其在现实世界应用（如Agent、机器人、自动驾驶和安防监控）中有效部署的关键前提。本文考察了LMMs的检测潜力。

5.2. LMMs的检测能力探索

尽管大型多模态模型（LMMs）在大多数视觉语言基准测试中表现出色，但在目标检测任务上却难以达到同等性能。现有方法[8, 21, 27, 42, 50, 51]试图通过大型多模态模型实现目标检测。例如，VisionLLM-v2[42]将Grounding-DINO[25]引入LMMs，并使用特殊 Token 执行目标检测。Groma[27]采用区域 Proposal 器来发现感兴趣区域，从而解锁LMMs的检测能力。而本文旨在研究大型多模态模型的目标检测能力，无需借助专业检测模型或 Proposal 网络。

6. 结论与局限性

LMM-Det通过不依赖额外模块的方式解决了LMM与专业检测器之间的检测性能差距问题。具体而言，作者进行了全面的探索性分析，并总结出关键挑战在于召回率不足。作者使LMM-Det在保持其固有功能如生成文本描述和问答能力的同时，在目标检测方面表现出色。此外，LMM-Det存在不可忽视的推理时间延迟，使其在传统实时检测方面竞争力较弱。未来，作者计划减少LMM-Det的推理时间。