大数跨境
0
0

BAM!利用知识蒸馏和多任务学习构建的通用语言模型

BAM!利用知识蒸馏和多任务学习构建的通用语言模型 机器之心
2019-03-18
7
导读:作者提出结合多任务学习与 BERT,从而在 11 项 NLP 任务上都获得极好的效果

基于知识蒸馏的多任务学习新方法:BAM + BERT 在 GLUE 基准上取得新突破

[k]

通过“教师退火”策略,多任务模型性能首次超越单任务模型,实现自然语言理解新突破

[k]

选自Openreview

机器之心编译

自 BERT 崛起以来,语言模型的预训练任务成为研究热点。本文介绍的 BAM 方法结合多任务学习与知识蒸馏,在 11 项 NLP 任务中均表现优异。

年初,微软推出的多任务自然语言理解模型在 GLUE 基准上刷新纪录,9 项任务超越 BERT,推动了预训练模型的进一步发展。目前,GLUE 排行榜上已有众多新成果,其中 BERT+BAM 方法表现突出[k]

多任务学习长期面临性能瓶颈——多任务模型通常弱于单任务模型。为此,研究者提出 BAM(Born-Again Multi-tasking)方法,利用知识蒸馏技术,让多个单任务模型“指导”共享参数的多任务模型,显著提升其性能[k]

知识蒸馏与教师退火机制

[k]

知识蒸馏旨在将“教师模型”的预测能力迁移至“学生模型”。尽管传统方法中学生模型难以超越教师,但“重生网络”(born-again network)表明,相同结构的模型通过模仿训练,学生模型仍可实现反超[k]。该研究将此思想扩展至多任务场景,提出 Single→Multi 知识蒸馏框架。

核心创新在于“教师退火”(teacher annealing)策略:训练初期,多任务模型主要模仿各单任务教师模型的输出;随着训练推进,真实标签的监督权重逐步增加。公式中混合系数 λ 从 0 线性增长至 1,实现从知识蒸馏到监督学习的平稳过渡[k]

图 1:BAM 方法整体架构。λ 控制知识蒸馏与监督学习的权重比例。

基于 BERT 的多任务模型设计

[k]

所有模型均基于 BERT 构建,输入经 byte-pair 编码后送入 Transformer 网络生成上下文表示。分类任务采用 softmax 输出,回归任务使用 sigmoid 激活。多任务模型中,除少量任务专属分类层外,其余参数完全共享,任务特定参数占比不足 0.01%[k]

单任务训练沿用 BERT 标准流程。多任务训练则对不同任务数据进行混合采样,避免大数据集主导训练过程,并采用分层学习率策略优化收敛[k]

实验结果:GLUE 基准新高

[k]

实验在 GLUE 基准的 9 项任务上进行,涵盖文本蕴含、问答、释义、相似度、情感分析等。使用 BERT-Large 预训练权重,多任务模型训练更长周期(6 轮)、更大批量(128),学习率设为 1e-4,分层学习率 α=0.9[k]

结果表明,BAM 方法在开发集和测试集上均显著优于标准单任务与多任务训练,取得当前 GLUE 基准最优性能。消融实验验证了知识蒸馏与教师退火的有效性,Single→Multi 蒸馏策略提升显著(p < .001)[k]

表 1:GLUE 开发集性能对比。∗∗∗ 表示 p < .001 的显著提升。

表 2:测试集结果对比。

分析还发现,多任务模型受益于更强的正则化效应以及任务间的知识迁移。特定任务组合(如 MNLI 与 QQP)可显著提升 RTE 表现,验证了跨任务学习的潜力[k]

表 3:模型消融实验结果。

表 4:不同任务组合对 RTE 性能的影响。

论文链接:https://openreview.net/forum?id=SylnYlqKw4

摘要:训练性能媲美甚至超越单任务模型的多任务网络极具挑战。本研究提出利用单任务模型通过知识蒸馏指导多任务模型,并引入教师退火机制,使多任务模型在 GLUE 基准上达到当前最优准确率,证明其可有效实现跨任务知识迁移与性能提升[k]

【声明】内容源于网络
0
0
机器之心
专业的人工智能媒体和产业服务平台
内容 17012
粉丝 0
机器之心 专业的人工智能媒体和产业服务平台
总阅读87.8k
粉丝0
内容17.0k