AAAI 2026 Oral｜华中科大提出 LENS：用统一强化推理重塑“分割大模型”，RefCOCO 再登 SoTA！

极市平台

2025-12-05

↑ 点击蓝字关注极市平台

作者丨粉丝投稿

编辑丨极市平台

极市导读

华中科大团队又上大分！全新的 LENS框架首次把“能思考的大模型”和“能分割的模型”真正连通了，系统性突破了长期存在的“信息传递瓶颈”。在推理与分割联合优化的加持下，文本提示分割在准确性、稳健性与泛化能力上全面提升，刷新 RefCOCO SoTA。 >>加入极市CV技术交流群，走在计算机视觉的最前沿

论文标题：LENS: Learning to Segment Anything with Unified Reinforced Reasoning
论文链接：https://arxiv.org/abs/2508.14153
代码链接：https://github.com/hustvl/LENS

LENS 架构

在这里介绍一下我们AAAI荣获Oral的工作，“会思考的分割大模型LENS”。有幸在这次AAAI 2026得到了审稿人们一致正面的评价，并被AC和PC一致同意推荐为Oral论文。

在这个工作中，我们研究了分割大模型领域的一大一小两个关键问题，大问题就是老生常谈的“泛化能力”，传统分割大模型对未见过的提示和领域的泛化能力往往有限；小问题则是隐藏的“信息瓶颈”，此前的分割大模型从“大脑思考”（MLLM）到“分割解码”（SAM）之间往往只通过单一的分割Token传递信息，存在隐形的“信息输送瓶颈”。

此前有同期的优秀工作Seg-Zero，它通过思考后，给出框和点，交由现成的（off-the-shelf）SAM进行分割。这样的做法有一个缺点就是误差的传递，如果思考后得到的框和点就有误差，那么SAM一定无法给出正确的分割。

为了解决这些挑战，我们提出LENS用端到端的方式联合优化思考推理过程和最终分割结果。我们采用 MLLM（如 Qwen2.5-VL-3B-Instruct）作为推理模型，并使用上下文模块（Context Module）来衔接 MLLM 和分割模型 SAM。该上下文模块由多个上下文查询（Context Queries）和一个连接器（Connector）组成，它能将CoT推理轨迹和边界框转换为上下文信息（Context Information），以指导分割掩码生成。

LENS框架同时在“思考推理”端也做出了改进，我们基于Group Relative Policy Optimization（GRPO）方法构建了统一强化学习奖励机制（Unified Rewards Scheme）。该奖励机制是多维度的，同时监督以下三个层级的线索：

格式奖励（Format Reward）：确保 MLLM 的输出（包括推理过程和定位结果）遵循预期的结构和格式一致性。
边界框 IoU 奖励（Box IoU Reward）：衡量预测边界框与真实边界框之间的定位准确性。
分割掩码 IoU 奖励（Segment IoU Reward）：评估像素级分割掩码的质量。

通过我们提出的联合优化（将统一的 GRPO 目标与监督分割损失相结合），LENS能够从奖励驱动的推理改进和直接的分割监督中同时受益。值得一提的是，LENS的端到端特性解决了定位错误（Grounding Error）向下游传播的问题，哪怕有些情况定位框是错的，强大的上下文查询（Context Query）也能带领分割模型走向正确。

核心结果方面，LENS取得了文本提示分割任务的最先进性能（SoTA）：LENS在RefCOCO系列的基准测试中取得了 81.2%的平均cIoU，达到了世界最高水平。在GroundingSuite-Eval这类更具挑战性的零样本基准测试中，LENS展现出卓越的域外泛化能力，cIoU 达到78.3%，超越第二优方法接近10%。