>

23篇论文入选ACL 2026！百度领跑国产大模型底层技术创新

>

23篇论文入选ACL 2026！百度领跑国产大模型底层技术创新

23篇论文入选ACL 2026！百度领跑国产大模型底层技术创新

百度AI

2026-04-09

37

近日，百度23篇论文入选第64届ACL国际计算语言学年会（ACL 2026），含主会长文17篇、Findings长文6篇，研究成果覆盖大模型安全、强化学习、多模态等前沿领域。

作为NLP领域顶级会议，本届ACL投稿量达12148篇，主会录用率仅19%。会议将于7月2日至7日在美国圣地亚哥举行。

百度入选ACL 2026的核心论文成果

以下精选论文聚焦大模型技术突破：

1. ConsistRM：基于一致性感知的生成式奖励模型优化

提出无需人工标注的自训练框架，通过时间一致性生成可靠伪标签，解决奖励模型训练稳定性问题。在五个基准测试中性能平均提升1.5pp，有效缓解输入位置偏置。

2. ReflectRM：自反思机制提升生成式奖励模型能力

创新性引入自反思能力，在统一框架下联合建模"回答偏好"与"分析偏好"。在Qwen3-4B模型上准确率提升3.7pp，位置偏置问题改善10.2pp。

3. CAST：基于注意力头级诊断的安全-效用平衡对齐

提出冲突感知稀疏微调框架，精准定位安全-效用冲突，仅微调低风险注意力头。在Llama3.1等模型上安全效果持平的同时，通用能力最高提升9.45%。

4. TEPO：词元级策略优化提升数学推理效率

通过序列级似然替代稀疏奖励分配，设计词元级KL掩码约束策略更新。在7个数学基准上精度平均提升2%，收敛速度提高50%，显著改善训练稳定性。

5. AttnPO：基于注意力引导的高效推理过程监督

利用模型内部注意力信号识别关键推理步骤，实现免采样过程监督。在DeepSeek模型上性能提升7.3点，推理长度压缩60%。

6. AAPO：优势边际增强推理强化学习

创新引入策略模型与参考模型的奖励差作为优势边际，解决候选答案差异小时梯度信号弱问题。在多任务场景中持续提升后训练稳定性。

7. CoVerRL：打破标签缺失推理的共识陷阱

建立生成器与验证器协同进化机制，避免输出多样性崩溃。在数学基准上性能优于基线4.7-5.9%，自验证准确率从55%提升至85%以上。

8. RioRAG：长文本生成的事实可验证优化

提出基于信息量的可验证奖励框架，通过跨来源交叉核验生成稳定反馈信号。在事实忠实性评测中显著优于现有方案。

9. Distributional Clarity：分布清晰度驱动强化学习优化

首次揭示模型概率分布清晰度是决定强化学习效果的关键因素，提出轮廓系数量化指标。在AIME24等任务上最高提升5.9分。

10. UniCreative：长/短文本生成的统一强化学习框架

将"是否需要规划"转化为可学习决策问题，实现无参考监督的自适应生成。在长文本结构一致性、短文本创造力方面均获提升。

11. 图结构思维链剪枝减少冗余推理

重构线性推理为有向无环图，区分关键步骤与验证步骤。在维持精度前提下平均缩减42%推理Token量。

12. RRAtention：动态块稀疏注意力加速长上下文处理

创新头轮询采样策略实现全局覆盖，复杂度降至O(L²/S²)。128K序列场景加速2.4倍，恢复99%全注意力性能。

13. ChessArena：大模型战略推理能力评测基准

设计含盲棋模式的国际象棋测试体系，实证揭示当前模型在长程博弈中存在显著缺陷。

14. SCAN：大模型细粒度能力评估框架

构建2082个标签的层次化能力树，创新逐点评估法将评估准确率最高提升15个百分点。

15. DORA：多模态智能体双目标搜索框架

融合检索质量与问答表现优化，实现答案准确率最高8.4%提升的同时减少9.7%搜索调用。

16. VeriGUI：具备自我纠错能力的GUI自动化系统

通过操作后验证实现故障检测，在AndroidControl等基准中恢复成功率显著领先开源模型。

17. MoE Adapter：音频大语言模型专家解耦方案

动态路由机制分离异构音频特征处理，解决单一适配器梯度冲突问题，推理阶段显著提效。

【声明】内容源于网络

0

0

百度AI

各类跨境出海行业相关资讯

内容 3456

粉丝 0

百度AI 各类跨境出海行业相关资讯

总阅读18.0k

粉丝0

内容3.5k