大数跨境
0
0

AAAI 2026 Oral | 会思考的LENS:基于统一强化推理的分割大模型

AAAI 2026 Oral | 会思考的LENS:基于统一强化推理的分割大模型 AI前沿速递
2025-12-05
0
导读:AAAI 2026 Oral | 会思考的LENS:基于统一强化推理的分割大模型

 

论文下载:关注回复【C729获取领取 AAAI2025大模型论文汇总

  • • 论文标题:LENS: Learning to Segment Anything with Unified Reinforced Reasoning
  • • 论文链接:https://arxiv.org/abs/2508.14153
  • • 代码链接:https://github.com/hustvl/LENS

在这里介绍一下我们AAAI荣获Oral的工作,“会思考的分割大模型LENS”。有幸在这次AAAI 2026得到了审稿人们一致正面的评价,并被AC和PC一致同意推荐为Oral论文。

在这个工作中,我们研究了分割大模型领域的一大一小两个关键问题,大问题就是老生常谈的“泛化能力”,传统分割大模型对未见过的提示和领域的泛化能力往往有限;小问题则是隐藏的“信息瓶颈”,此前的分割大模型从“大脑思考”(MLLM)到“分割解码”(SAM)之间往往只通过单一的分割Token传递信息,存在隐形的“信息输送瓶颈”。

此前有同期的优秀工作Seg-Zero,它通过思考后,给出框和点,交由现成的(off-the-shelf)SAM进行分割。这样的做法有一个缺点就是误差的传递,如果思考后得到的框和点就有误差,那么SAM一定无法给出正确的分割。

为了解决这些挑战,我们提出LENS用端到端的方式联合优化思考推理过程和最终分割结果。我们采用 MLLM(如 Qwen2.5-VL-3B-Instruct)作为推理模型,并使用上下文模块(Context Module)来衔接 MLLM 和分割模型 SAM。该上下文模块由多个上下文查询(Context Queries)和一个连接器(Connector)组成,它能将CoT推理轨迹和边界框转换为上下文信息(Context Information),以指导分割掩码生成。

LENS框架同时在“思考推理”端也做出了改进,我们基于Group Relative Policy Optimization(GRPO)方法构建了统一强化学习奖励机制(Unified Rewards Scheme)。该奖励机制是多维度的,同时监督以下三个层级的线索:

  1. 1. 格式奖励(Format Reward):确保 MLLM 的输出(包括推理过程和定位结果)遵循预期的结构和格式一致性。
  2. 2. 边界框 IoU 奖励(Box IoU Reward):衡量预测边界框与真实边界框之间的定位准确性。
  3. 3. 分割掩码 IoU 奖励(Segment IoU Reward):评估像素级分割掩码的质量。

通过我们提出的联合优化(将统一的 GRPO 目标与监督分割损失相结合),LENS能够从奖励驱动的推理改进和直接的分割监督中同时受益。值得一提的是,LENS的端到端特性解决了定位错误(Grounding Error)向下游传播的问题,哪怕有些情况定位框是错的,强大的上下文查询(Context Query)也能带领分割模型走向正确。

核心结果方面,LENS取得了文本提示分割任务的最先进性能(SoTA):LENS在RefCOCO系列的基准测试中取得了 81.2%的平均cIoU,达到了世界最高水平。在GroundingSuite-Eval这类更具挑战性的零样本基准测试中,LENS展现出卓越的域外泛化能力,cIoU 达到78.3%,超越第二优方法接近10%。

这些成果证明了LENS这类统一强化学习奖励驱动的CoT推理能够显著增强文本提示分割能力。我们相信LENS为强化学习与视觉分割的无缝集成提供了新的思路,并将推动更通用、更稳健的视觉-语言系统的未来研究。我们期待在 AAAI 2026 与各位学术界的朋友们交流。



扫码添加小助手回复“A729
免费获取 AAAI 2025 大模型论文+源码




往期推荐
一夜醒来,Transformer和Mamba都被超越了!大模型最强架构TTT问世!

一区Top期刊 Information Sciences 惨遭除名,2025中科院最新分区揭晓!

视觉Transformer(Vision Transformer, ViT) :全面超越CNN,看懂这篇文章就没什么能难倒你了!

我愿称之无敌!特征融合最新暴力涨点方案!

超越传统:GNN和Transformer结合的创新突破!
CVPR 2024 | CRNet:一种可保留细节的图像增强与统一恢复网络
复活CNN!港大 CVPR 2025 高分论文,助力卷积神经网络效率暴涨还省显存!
深度学习可解释杀疯了!登上《Nature》正刊!屠榜双领域SOTA!
Transformer 过时了!MIT 液体神经网络 LNN 才是新趋势!
小波变换+注意力机制的结合创新,竟能实现100%分类准确率!
CVPR 2024 | 黑暗中的多目标追踪
研究因果推断最前沿,这些个创新思路不能错过



📢欢迎加入我们的学术交流群!

无论你是研究哪个方向的,都可以找到志同道合的伙伴

添加好友后将拉你进相应微信群。

📌 添加方式:

扫描下方二维码,或搜索微信号:aiqysd

📩 添加好友时请务必备注信息,格式如下:

研究方向  + 学校/公司 + 学历 + 姓名

非常重要:

发送好友验证时,必须填写备注信息,示例如下:

👉 目标检测 + 中科大 + 研一 + 陈奕迅

凡格式不对者,一律不予理睬

我们期待你的加入,一起交流、学习、进步!

部分资料展示👇




欢迎投稿

想要让高质量的内容更快地触达读者,降低他们寻找优质信息的成本吗?关键在于那些你尚未结识的人。他们可能掌握着你渴望了解的知识。【AI前沿速递】愿意成为这样的一座桥梁,连接不同领域、不同背景的学者,让他们的学术灵感相互碰撞,激发出无限可能。

【AI前沿速递】欢迎各高校实验室和个人在我们的平台上分享各类精彩内容,无论是最新的论文解读,还是对学术热点的深入分析,或是科研心得和竞赛经验的分享,我们的目标只有一个:让知识自由流动。

📝 投稿指南

  • 确保文章为个人原创,未在任何公开渠道发布。若文章已在其他平台发表或即将发表,请明确说明。

  • 建议使用Markdown格式撰写稿件,并以附件形式发送清晰、无版权争议的配图。

  • 【AI前沿速递】尊重作者的署名权,并为每篇被采纳的原创首发稿件提供具有市场竞争力的稿酬。稿酬将根据文章的阅读量和质量进行阶梯式结算。

📬 投稿方式

  • 您可以通过添加我们的小助理微信(aiqysd)进行快速投稿。请在添加时备注“投稿-姓名-学校-研究方向”


    长按添加AI前沿速递小助理





【声明】内容源于网络
0
0
AI前沿速递
AI前沿速递 聚焦人工智能最新科研成果与技术动态,专注前沿论文解读、行业资讯分享与高校招生信息推送,助力AI爱好者和从业者把握学界风向标。每日更新技术干货与深度内容,让全球优秀研究被更多人看见。关注我们,探索AI无限可能!
内容 1825
粉丝 0
AI前沿速递 AI前沿速递 聚焦人工智能最新科研成果与技术动态,专注前沿论文解读、行业资讯分享与高校招生信息推送,助力AI爱好者和从业者把握学界风向标。每日更新技术干货与深度内容,让全球优秀研究被更多人看见。关注我们,探索AI无限可能!
总阅读73
粉丝0
内容1.8k