作为NLP领域顶级会议,本届ACL投稿量达12148篇,主会录用率仅19%。会议将于7月2日至7日在美国圣地亚哥举行。
百度入选ACL 2026的核心论文成果
以下精选论文聚焦大模型技术突破:
1. ConsistRM:基于一致性感知的生成式奖励模型优化
提出无需人工标注的自训练框架,通过时间一致性生成可靠伪标签,解决奖励模型训练稳定性问题。在五个基准测试中性能平均提升1.5pp,有效缓解输入位置偏置。
2. ReflectRM:自反思机制提升生成式奖励模型能力
创新性引入自反思能力,在统一框架下联合建模"回答偏好"与"分析偏好"。在Qwen3-4B模型上准确率提升3.7pp,位置偏置问题改善10.2pp。
3. CAST:基于注意力头级诊断的安全-效用平衡对齐
提出冲突感知稀疏微调框架,精准定位安全-效用冲突,仅微调低风险注意力头。在Llama3.1等模型上安全效果持平的同时,通用能力最高提升9.45%。
4. TEPO:词元级策略优化提升数学推理效率
通过序列级似然替代稀疏奖励分配,设计词元级KL掩码约束策略更新。在7个数学基准上精度平均提升2%,收敛速度提高50%,显著改善训练稳定性。
5. AttnPO:基于注意力引导的高效推理过程监督
利用模型内部注意力信号识别关键推理步骤,实现免采样过程监督。在DeepSeek模型上性能提升7.3点,推理长度压缩60%。
6. AAPO:优势边际增强推理强化学习
创新引入策略模型与参考模型的奖励差作为优势边际,解决候选答案差异小时梯度信号弱问题。在多任务场景中持续提升后训练稳定性。
7. CoVerRL:打破标签缺失推理的共识陷阱
建立生成器与验证器协同进化机制,避免输出多样性崩溃。在数学基准上性能优于基线4.7-5.9%,自验证准确率从55%提升至85%以上。
8. RioRAG:长文本生成的事实可验证优化
提出基于信息量的可验证奖励框架,通过跨来源交叉核验生成稳定反馈信号。在事实忠实性评测中显著优于现有方案。
9. Distributional Clarity:分布清晰度驱动强化学习优化
首次揭示模型概率分布清晰度是决定强化学习效果的关键因素,提出轮廓系数量化指标。在AIME24等任务上最高提升5.9分。
10. UniCreative:长/短文本生成的统一强化学习框架
将"是否需要规划"转化为可学习决策问题,实现无参考监督的自适应生成。在长文本结构一致性、短文本创造力方面均获提升。
11. 图结构思维链剪枝减少冗余推理
重构线性推理为有向无环图,区分关键步骤与验证步骤。在维持精度前提下平均缩减42%推理Token量。
12. RRAtention:动态块稀疏注意力加速长上下文处理
创新头轮询采样策略实现全局覆盖,复杂度降至O(L²/S²)。128K序列场景加速2.4倍,恢复99%全注意力性能。
13. ChessArena:大模型战略推理能力评测基准
设计含盲棋模式的国际象棋测试体系,实证揭示当前模型在长程博弈中存在显著缺陷。
14. SCAN:大模型细粒度能力评估框架
构建2082个标签的层次化能力树,创新逐点评估法将评估准确率最高提升15个百分点。
15. DORA:多模态智能体双目标搜索框架
融合检索质量与问答表现优化,实现答案准确率最高8.4%提升的同时减少9.7%搜索调用。
16. VeriGUI:具备自我纠错能力的GUI自动化系统
通过操作后验证实现故障检测,在AndroidControl等基准中恢复成功率显著领先开源模型。
17. MoE Adapter:音频大语言模型专家解耦方案
动态路由机制分离异构音频特征处理,解决单一适配器梯度冲突问题,推理阶段显著提效。

