大数跨境
0
0

AAAI 2026 Oral|华中科大提出 LENS:用统一强化推理重塑“分割大模型”,RefCOCO 再登 SoTA!

AAAI 2026 Oral|华中科大提出 LENS:用统一强化推理重塑“分割大模型”,RefCOCO 再登 SoTA! 极市平台
2025-12-05
1
↑ 点击蓝字 关注极市平台
作者丨粉丝投稿
编辑丨极市平台

极市导读

 

华中科大团队又上大分!全新的 LENS框架首次 把“能思考的大模型”和“能分割的模型”真正连通了,系统性突破了长期存在的“信息传递瓶颈”。在推理与分割联合优化的加持下,文本提示分割在准确性、稳健性与泛化能力上全面提升,刷新 RefCOCO SoTA。 >>加入极市CV技术交流群,走在计算机视觉的最前沿

论文标题:LENS: Learning to Segment Anything with Unified Reinforced Reasoning
论文链接https://arxiv.org/abs/2508.14153
代码链接https://github.com/hustvl/LENS

LENS 架构

在这里介绍一下我们AAAI荣获Oral的工作,“会思考的分割大模型LENS”。有幸在这次AAAI 2026得到了审稿人们一致正面的评价,并被AC和PC一致同意推荐为Oral论文。

LENS 模型架构

在这个工作中,我们研究了分割大模型领域的一大一小两个关键问题,大问题就是老生常谈的“泛化能力”,传统分割大模型对未见过的提示和领域的泛化能力往往有限;小问题则是隐藏的“信息瓶颈”,此前的分割大模型从“大脑思考”(MLLM)到“分割解码”(SAM)之间往往只通过单一的分割Token传递信息,存在隐形的“信息输送瓶颈”。

此前有同期的优秀工作Seg-Zero,它通过思考后,给出框和点,交由现成的(off-the-shelf)SAM进行分割。这样的做法有一个缺点就是误差的传递,如果思考后得到的框和点就有误差,那么SAM一定无法给出正确的分割。

为了解决这些挑战,我们提出LENS用端到端的方式联合优化思考推理过程和最终分割结果。我们采用 MLLM(如 Qwen2.5-VL-3B-Instruct)作为推理模型,并使用上下文模块(Context Module)来衔接 MLLM 和分割模型 SAM。该上下文模块由多个上下文查询(Context Queries)和一个连接器(Connector)组成,它能将CoT推理轨迹和边界框转换为上下文信息(Context Information),以指导分割掩码生成。

LENS 结果可视化
LENS 结果可视化

LENS框架同时在“思考推理”端也做出了改进,我们基于Group Relative Policy Optimization(GRPO)方法构建了统一强化学习奖励机制(Unified Rewards Scheme)。该奖励机制是多维度的,同时监督以下三个层级的线索:

  1. 格式奖励(Format Reward):确保 MLLM 的输出(包括推理过程和定位结果)遵循预期的结构和格式一致性。
  2. 边界框 IoU 奖励(Box IoU Reward):衡量预测边界框与真实边界框之间的定位准确性。
  3. 分割掩码 IoU 奖励(Segment IoU Reward):评估像素级分割掩码的质量。

通过我们提出的联合优化(将统一的 GRPO 目标与监督分割损失相结合),LENS能够从奖励驱动的推理改进和直接的分割监督中同时受益。值得一提的是,LENS的端到端特性解决了定位错误(Grounding Error)向下游传播的问题,哪怕有些情况定位框是错的,强大的上下文查询(Context Query)也能带领分割模型走向正确。

LENS RefCOCO 实验结果

核心结果方面,LENS取得了文本提示分割任务的最先进性能(SoTA):LENS在RefCOCO系列的基准测试中取得了 81.2%的平均cIoU,达到了世界最高水平。在GroundingSuite-Eval这类更具挑战性的零样本基准测试中,LENS展现出卓越的域外泛化能力,cIoU 达到78.3%,超越第二优方法接近10%。

LENS ReasonSeg & GroundingSuite-Eval 实验结果
LENS ReasonSeg & GroundingSuite-Eval 实验结果

总结

这些成果证明了LENS这类统一强化学习奖励驱动的CoT推理能够显著增强文本提示分割能力。我们相信LENS为强化学习与视觉分割的无缝集成提供了新的思路,并将推动更通用、更稳健的视觉-语言系统的未来研究。我们期待在 AAAI 2026 与各位学术界的朋友们交流。


公众号后台回复“数据集”获取100+深度学习各方向资源整理

极市干货

技术专栏:多模态大模型超详细解读专栏搞懂Tranformer系列大视觉模型 (LVM) 解读扩散模型系列极市直播
技术综述:小目标检测那点事大模型面试八股含答案万字长文!人体姿态估计(HPE)入门教程

点击阅读原文进入CV社区

收获更多技术干货

【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读7.6k
粉丝0
内容8.2k