大数跨境

23篇论文入选ACL 2026!百度领跑国产大模型底层技术创新

23篇论文入选ACL 2026!百度领跑国产大模型底层技术创新 百度AI
2026-04-09
37
近日,百度23篇论文入选第64届ACL国际计算语言学年会(ACL 2026),含主会长文17篇、Findings长文6篇,研究成果覆盖大模型安全、强化学习、多模态等前沿领域。

作为NLP领域顶级会议,本届ACL投稿量达12148篇,主会录用率仅19%。会议将于7月2日至7日在美国圣地亚哥举行。

百度入选ACL 2026的核心论文成果

以下精选论文聚焦大模型技术突破:

1. ConsistRM:基于一致性感知的生成式奖励模型优化

提出无需人工标注的自训练框架,通过时间一致性生成可靠伪标签,解决奖励模型训练稳定性问题。在五个基准测试中性能平均提升1.5pp,有效缓解输入位置偏置。

2. ReflectRM:自反思机制提升生成式奖励模型能力

创新性引入自反思能力,在统一框架下联合建模"回答偏好"与"分析偏好"。在Qwen3-4B模型上准确率提升3.7pp,位置偏置问题改善10.2pp。

3. CAST:基于注意力头级诊断的安全-效用平衡对齐

提出冲突感知稀疏微调框架,精准定位安全-效用冲突,仅微调低风险注意力头。在Llama3.1等模型上安全效果持平的同时,通用能力最高提升9.45%。

4. TEPO:词元级策略优化提升数学推理效率

通过序列级似然替代稀疏奖励分配,设计词元级KL掩码约束策略更新。在7个数学基准上精度平均提升2%,收敛速度提高50%,显著改善训练稳定性。

5. AttnPO:基于注意力引导的高效推理过程监督

利用模型内部注意力信号识别关键推理步骤,实现免采样过程监督。在DeepSeek模型上性能提升7.3点,推理长度压缩60%。

6. AAPO:优势边际增强推理强化学习

创新引入策略模型与参考模型的奖励差作为优势边际,解决候选答案差异小时梯度信号弱问题。在多任务场景中持续提升后训练稳定性。

7. CoVerRL:打破标签缺失推理的共识陷阱

建立生成器与验证器协同进化机制,避免输出多样性崩溃。在数学基准上性能优于基线4.7-5.9%,自验证准确率从55%提升至85%以上。

8. RioRAG:长文本生成的事实可验证优化

提出基于信息量的可验证奖励框架,通过跨来源交叉核验生成稳定反馈信号。在事实忠实性评测中显著优于现有方案。

9. Distributional Clarity:分布清晰度驱动强化学习优化

首次揭示模型概率分布清晰度是决定强化学习效果的关键因素,提出轮廓系数量化指标。在AIME24等任务上最高提升5.9分。

10. UniCreative:长/短文本生成的统一强化学习框架

将"是否需要规划"转化为可学习决策问题,实现无参考监督的自适应生成。在长文本结构一致性、短文本创造力方面均获提升。

11. 图结构思维链剪枝减少冗余推理

重构线性推理为有向无环图,区分关键步骤与验证步骤。在维持精度前提下平均缩减42%推理Token量。

12. RRAtention:动态块稀疏注意力加速长上下文处理

创新头轮询采样策略实现全局覆盖,复杂度降至O(L²/S²)。128K序列场景加速2.4倍,恢复99%全注意力性能。

13. ChessArena:大模型战略推理能力评测基准

设计含盲棋模式的国际象棋测试体系,实证揭示当前模型在长程博弈中存在显著缺陷。

14. SCAN:大模型细粒度能力评估框架

构建2082个标签的层次化能力树,创新逐点评估法将评估准确率最高提升15个百分点。

15. DORA:多模态智能体双目标搜索框架

融合检索质量与问答表现优化,实现答案准确率最高8.4%提升的同时减少9.7%搜索调用。

16. VeriGUI:具备自我纠错能力的GUI自动化系统

通过操作后验证实现故障检测,在AndroidControl等基准中恢复成功率显著领先开源模型。

17. MoE Adapter:音频大语言模型专家解耦方案

动态路由机制分离异构音频特征处理,解决单一适配器梯度冲突问题,推理阶段显著提效。

【声明】内容源于网络
0
0
百度AI
各类跨境出海行业相关资讯
内容 3456
粉丝 0
百度AI 各类跨境出海行业相关资讯
总阅读18.0k
粉丝0
内容3.5k