大数跨境

深言科技×清华大学联合成果入选 EMNLP 2025 SAC Highlights

深言科技×清华大学联合成果入选 EMNLP 2025 SAC Highlights 深言科技
2025-11-10
17
导读:GATEAU框架:仅用10%数据,性能反超100%全量数据
近日,自然语言处理领域顶级国际会议 EMNLP 2025 于中国苏州举行,并公布了本届大会的论文奖项和获奖名单。由深言科技与清华大学联合主导完成的论文 GATEAU: Selecting Influential Samples for Long Context Alignment 成功入选 SAC Highlights。

EMNLP与ACL、NAACL并称为NLP领域三大顶级会议,发表论文代表了该领域最新、最重要的学术成果。其中的 SAC Highlights 奖项是由高级领域主席在其研究领域推荐优秀论文,并由 EMNLP 2025 奖励委员会最终确定名单。本届会议共收到 8174 篇论文投稿,共有 36 篇论文入选 SAC Highlights 占投稿总数的 0.5%。

研究发现,合成海量长指令数据会引入大量缺乏“长程依赖关系”的低质量样本,从而限制模型性能。本文关注大模型在长上下文对齐中的独特挑战,提出了 GATEAU——一个创新的影响力样本筛选框架。GATEAU 通过同源模型指导 (HMG)上下文感知测量 (CAM)两个维度,精确识别那些真正富含长程依赖的、对模型训练最有价值的“硬”样本。

论文详情:
https://arxiv.org/abs/2410.15633
代码地址:
https://github.com/S1s-Z/GATEAU

实验证明,使用 GATEAU 筛选出的仅仅 10%的数据,训练出的模型性能超越了使用 100% 全量数据的模型,显著提升了模型的长上下文理解与指令遵循能力,并减少了模型在长上下文场景中的幻觉。

一、研究动机


大模型(LLMs)在处理超长上下文时展现了巨大潜力,但如何高效地“对齐”它们,使其能理解并遵循长上下文中的复杂指令,仍是一个未被充分探索的难题。

此前的研究多依赖“合成数据”来扩充训练集,但无差别地增加数据量且缺乏控制数据质量的明确策略,会引入缺乏长程依赖关系的低质量样本。这意味着,模型可能仅凭上下文的开头或结尾就能回答问题,而无需真正理解贯穿全文的“长程依赖关系”

训练在这种“假”的长上下文数据上,模型性能会受限,并浪费大量计算资源。因此,我们提出了一个关键问题:如何从海量的合成数据中,自动筛选出那些对训练长上下文模型真正“有影响力”的样本?

二、解决方案:

GATEAU 框架可有效筛选

长上下文中有影响力样本


为了解决上述挑战,清华大学联合深言科技共同提出了 GATEAU (Selecting Influential Samples for Long Context Alignment)框架,用于筛选有影响力的样本。以往筛选高影响力指令数据的研究主要聚焦于短样本,现有方法对长上下文对齐未必有效,因为忽视了长上下文对齐所特有的挑战——即如何挑选富含有意义长程依赖关系的样本。

对此,团队从两个核心维度度量长程依赖,也构成了 GATEAU 的核心思想,即一个有价值的“影响力样本”应该在两个方面对模型提出挑战:一是“目标回复难以生成”二是“给定输入难以理解”。GATEAU 框架通过两种精心设计的度量方法来量化这些挑战:

1、同源模型指导

同源模型指导 (Homologous Models' Guidance, HMG)用于测量“生成”响应的难度。我们使用两个“同源”(架构相同,仅上下文窗口不同,如 LLaMA-2-4k 和 LLaMA-2-64k)的模型。直觉上,如果一个样本严重依赖长程信息,那么短窗口(4k)模型在生成答案时会非常“困惑”,而长窗口(64k)模型则能很好地理解。这两个模型之间巨大的“困惑度差异”,就是样本富含长程依赖的信号,我们用它来筛选出生成难度高的样本。

2、上下文感知测量

上下文感知测量 (Contextual Awareness Measurement, CAM)用于测量“理解”输入的难度。我们首先计算长篇输入中,哪些片段对生成正确答案是真正“重要”的。然后,我们去检查模型在生成答案时,其“注意力”是否真的放在了这些重要片段上。如果模型“跑神”了,反而去关注那些不重要的片段,这说明模型难以准确理解这个长输入。这样的样本对训练模型“抓住重点”的能力至关重要。

最终,GATEAU 结合 HMG 和 CAM 的分数,选出那些最“硬核”的挑战性样本用于训练。

三、实验结果: 

GATEAU 筛选 10% 数据

即可超越 100% 全量数据


我们进行了广泛的实验,在 LongBench、LongBench-Chat、MT-Bench 等多个 Benchmark 上验证了 GATEAU 的有效性。

  • “少即是多”


使用 GATEAU 方法筛选的 10% 数据进行训练的模型,其性能显著超越了使用 100% 全量数据训练的基线模型。

下图展示了在两种不同设置下, GATEAU 在 LongBench、LongBench-Chat 和 MT-Bench 上的结果,表现均高于同类的数据筛选工作 。

同时,使用 GATEAU 来带的性能提升是全面的,不仅在长上下文理解任务(LongBench,Table 2)上大幅降低了幻觉,同时在长上下文指令遵循任务(LongBench-Chat, Table 1)上表现出色,甚至在短指令遵循能力(MT-Bench, Table 1)上也获得了收益。

  • 精准识别“高质量”样本


团队对比了 GATEAU 评分最高 1% 和最低 1% 的样本,并从 5 个不同的维度进行评估。下图的结果表明,GATEAU 选出的高分样本在数据质量上显著优于低分样本,这一方法可以精准识别真正“高质量”的训练数据。

  • 方法有效且可扩展


我们通过消融实验验证了 GATEAU 框架各个组件的有效性。实验证明,无论是“同源模型指导 (HMG)”还是“上下文感知测量 (CAM)”,两者对于提升模型能力都不可或缺 ,且二者结合能从不同维度衡量样本难度,达到最佳效果 。

同时,我们还将 GATEAU 应用于 13B 规模的模型,实验表明该方法具有良好的可扩展性,在更大模型上取得了性能的一致提升 。

  • 深入分析长文性能


团队分析了模型在不同上下文长度(0-4k, 4k-8k, 8k+)下的表现。如下图所示,GATEAU 筛选训练的模型在 4k 以上的长上下文场景中,性能显著优于其他方法。一个关键发现是,盲目使用全部长数据(Full-100%)在长上下文(4k-8k)中的表现甚至不如只用短数据(w/o Long SFT)的模型。这再次证明了高质量数据筛选的必要性,以及 GATEAU 在提升模型真实长文理解能力上的有效性。

此外,为了测试模型在超长文本中精准检索信息的能力,我们还进行了“大海捞针”测试。如下图所示,使用 GATEAU 训练的模型在所有测试长度和深度上几乎都能完美地找到“针”。这表明 GATEAU 有效地训练了模型利用长文本中不同位置信息的能力,显著降低了检索错误。

四、总结


长上下文对齐设计中的数据筛选框架问题,是大模型研发与落地中的实际痛点。深言科技在产业实践中需高频处理行业研报、论文等超长文本内容并有效降低幻觉,传统方法训练出的模型,难以满足学术、金融等领域对长文本理解精度的要求。

这一来自产业端的洞察,与清华团队对“长程依赖”学术问题的思考高度契合,共同催生了“筛选有影响力样本”的研究方向,让 GATEAU 的设计从一开始就瞄准“解决实际问题”,而非单纯的理论创新。

GATEAU 不再盲目追求数据“数量”,而是通过 HMG 和 CAM 两种度量,精准识别数据“质量”,即样本中“长程依赖关系”的丰富度。这项工作证明了,通过智能的数据筛选策略,我们可以用更少的数据、更少的算力,训练出更强大、幻觉率更低的长上下文大模型。


关于深言科技

深言科技由清华大学自然语言处理实验室与北京智源人工智能研究院共同孵化,是国内最早开展大模型研发与探索大模型落地的创业公司之一。团队曾研发世界首个中文及跨语言反向词典WantWords、智能写作工具深言达意、10倍提效的个性化信息助手语鲸等,已为超过 1000 万用户提供智能文本信息处理服务,并和国家部委、央企等标杆客户达成商业合作。


联系我们


深言科技官网:https://deeplang.ai

商务合作邮箱:bd@deeplang.ai

简历投递邮箱:join@deeplang.ai



【声明】内容源于网络
0
0
深言科技
深言科技(DeepLang AI)成立于2022年,由清华大学自然语言处理实验室孵化。公司旨在利用最前沿的人工智能和自然语言处理技术,构建新一代中文信息处理引擎,为个人和组织系统化重塑文本信息处理全流程。
内容 19
粉丝 0
深言科技 深言科技(DeepLang AI)成立于2022年,由清华大学自然语言处理实验室孵化。公司旨在利用最前沿的人工智能和自然语言处理技术,构建新一代中文信息处理引擎,为个人和组织系统化重塑文本信息处理全流程。
总阅读30
粉丝0
内容19