大数跨境
0
0

ICCV 2025 | 清华等提出YOLO-Count:让AI“心中有数”,可微分“对象计数”精准控制图像生成

ICCV 2025 | 清华等提出YOLO-Count:让AI“心中有数”,可微分“对象计数”精准控制图像生成 极市平台
2025-08-21
0
↑ 点击蓝字 关注极市平台
作者丨CV君
来源丨我爱计算机视觉
编辑丨极市平台

极市导读

 

清华等团队提出可微分的开放词汇计数器 YOLO-Count,用“基数图”精准统计任意类别对象,并通过梯度反向传播实时指导文生图模型,实现“三只猫就画三只”的可控生成。 >>加入极市CV技术交流群,走在计算机视觉的最前沿

你是否曾让AI画“三只猫”,结果它却给你画了五只,或者干脆糊成一团?当前强大的文生图(T2I)模型虽然在艺术风格和真实感上表现惊人,但在精确控制生成对象的“数量”上却常常“数不清”。

为了解决这个业界难题,来自清华大学、加利福尼亚大学圣迭戈分校(UC San Diego)和加利福尼亚大学伯克利分校(UC Berkeley)的研究者们提出YOLO-Count,一个创新的、可微分的、开放词汇的对象计数模型。它不仅在通用计数任务上达到了SOTA水平,更重要的是,它能作为“指导老师”,教会T2I模型如何精确地按指令生成指定数量的物体。

  • 作者: Guanning Zeng, Xiang Zhang, Zirui Wang, Haiyang Xu, Zeyuan Chen, Bingnan Li, Zhuowen Tu
  • 机构: 清华大学; 加州大学圣地亚哥分校; 加州大学伯克利分校
  • 论文标题: YOLO-Count: Differentiable Object Counting for Text-to-Image Generation
  • 论文地址: https://arxiv.org/pdf/2508.00728v1
  • 录用会议: ICCV 2025

研究背景

精确的数量控制是实现可控内容生成的关键一环。然而,现有的T2I模型,如Stable Diffusion XL (SDXL),在遵循包含数字的文本提示时表现不佳。

传统的对象计数方法,无论是基于检测还是基于密度图回归,都难以直接有效地集成到T2I模型的生成过程中。基于检测的方法通常是不可微分的,无法通过梯度指导生成;而基于密度图的方法在处理稀疏对象或尺寸变化大的对象时存在偏差。

如何设计一个既能准确计数,又能与生成模型无缝协作的模块,是当前面临的核心挑战。

YOLO-Count:核心方法与创新

为了解决上述挑战,研究者们提出了YOLO-Count。它是一个完全可微分的架构,能够以端到端的方式进行优化,并指导生成模型。

其核心创新主要有以下几点:

1.  基数图 (Cardinality Map):

这是YOLO-Count最核心的贡献。研究者提出了一种新颖的回归目标——基数图。与传统密度图不同,基数图的每个网格单元(grid cell)直接回归一个[0, 1]之间的值,表示该单元“包含”一个对象的“分数”。将整个图的数值求和,便能得到总的对象数量。这种设计巧妙地解决了对象大小和空间分布变化带来的计数偏差问题,无论物体大小如何,每个物体都贡献大约为1的总和。

2.  可微分与开放词汇:

YOLO-Count建立在YOLO-World架构之上,继承了其开放词汇的能力,可以对任意类别的对象进行计数。更重要的是,整个模型是完全可微分的。这意味着YOLO-Count计算出的计数值与期望值之间的误差,可以通过梯度下降的方式,反向传播给T2I模型,从而在生成过程中实时“纠正”其行为,使其生成正确数量的对象。

3.  混合强弱监督 (Hybrid Strong-Weak Supervision):

为了有效地训练模型,YOLO-Count采用了一种混合监督方案。它既可以利用带有精确分割掩码的“强”标注数据,也可以利用只有点标注或数量标注的“弱”标注数据。这大大扩展了可用训练数据的范围,提升了模型的泛化能力。

实验与结果分析

论文进行了广泛的实验,验证了YOLO-Count在通用计数和T2I数量控制两方面的卓越性能。

T2I数量控制任务中,如下图所示,与基线模型(SDXL)和其他控制方法相比,YOLO-Count显著降低了生成数量与提示数量之间的误差,无论是在训练过的类别还是未见过的类别上,都表现出强大的控制力。

从定性结果来看,效果一目了然。当提示词要求“5个苹果”时,基线模型可能生成任意数量的苹果,而经过YOLO-Count指导后,模型能够稳定地生成5个苹果,且保持了高质量的图像效果。

通用对象计数任务中,YOLO-Count同样取得了SOTA的精度。

论文贡献与价值

YOLO-Count的提出,为可控内容生成领域带来了重要突破:

  1. 弥合差距:成功地将在计算机视觉中发展成熟的对象计数能力与生成式AI的需求相结合,为T2I模型的细粒度控制开辟了新途径。
  2. 核心创新:提出的“基数图”是一种新颖且有效的回归目标,为解决通用计数问题提供了新的SOTA方案。
  3. 增强可控性:其可微分的特性使其能作为即插即用的指导模块,显著提升了现有T2I模型在数量控制上的精确性和鲁棒性。
  4. 实用性强:混合监督的学习方式降低了对数据标注的要求,使其更具现实应用价值。

总而言之,YOLO-Count不仅是一个更精确的计数器,更是一个有效的“生成指导器”,它让我们离“所说即所得”的AI内容创作更近了一步。


公众号后台回复“数据集”获取100+深度学习各方向资源整理

极市干货

技术专栏:多模态大模型超详细解读专栏搞懂Tranformer系列大视觉模型 (LVM) 解读扩散模型系列极市直播
技术综述:小目标检测那点事大模型面试八股含答案万字长文!人体姿态估计(HPE)入门教程

点击阅读原文进入CV社区

收获更多技术干货

【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读8.7k
粉丝0
内容8.2k