

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

2019-03-18

导读：作者提出结合多任务学习与 BERT，从而在 11 项 NLP 任务上都获得极好的效果

基于知识蒸馏的多任务学习新方法：BAM + BERT 在 GLUE 基准上取得新突破

[k]

[k]

选自Openreview

机器之心编译

自 BERT 崛起以来，语言模型的预训练任务成为研究热点。本文介绍的 BAM 方法结合多任务学习与知识蒸馏，在 11 项 NLP 任务中均表现优异。

年初，微软推出的多任务自然语言理解模型在 GLUE 基准上刷新纪录，9 项任务超越 BERT，推动了预训练模型的进一步发展。目前，GLUE 排行榜上已有众多新成果，其中 BERT+BAM 方法表现突出[k]。

多任务学习长期面临性能瓶颈——多任务模型通常弱于单任务模型。为此，研究者提出 BAM（Born-Again Multi-tasking）方法，利用知识蒸馏技术，让多个单任务模型“指导”共享参数的多任务模型，显著提升其性能[k]。

[k]

知识蒸馏旨在将“教师模型”的预测能力迁移至“学生模型”。尽管传统方法中学生模型难以超越教师，但“重生网络”（born-again network）表明，相同结构的模型通过模仿训练，学生模型仍可实现反超[k]。该研究将此思想扩展至多任务场景，提出 Single→Multi 知识蒸馏框架。

核心创新在于“教师退火”（teacher annealing）策略：训练初期，多任务模型主要模仿各单任务教师模型的输出；随着训练推进，真实标签的监督权重逐步增加。公式中混合系数 λ 从 0 线性增长至 1，实现从知识蒸馏到监督学习的平稳过渡[k]。

图 1：BAM 方法整体架构。λ 控制知识蒸馏与监督学习的权重比例。

[k]

所有模型均基于 BERT 构建，输入经 byte-pair 编码后送入 Transformer 网络生成上下文表示。分类任务采用 softmax 输出，回归任务使用 sigmoid 激活。多任务模型中，除少量任务专属分类层外，其余参数完全共享，任务特定参数占比不足 0.01%[k]。

单任务训练沿用 BERT 标准流程。多任务训练则对不同任务数据进行混合采样，避免大数据集主导训练过程，并采用分层学习率策略优化收敛[k]。

[k]

实验在 GLUE 基准的 9 项任务上进行，涵盖文本蕴含、问答、释义、相似度、情感分析等。使用 BERT-Large 预训练权重，多任务模型训练更长周期（6 轮）、更大批量（128），学习率设为 1e-4，分层学习率 α=0.9[k]。

结果表明，BAM 方法在开发集和测试集上均显著优于标准单任务与多任务训练，取得当前 GLUE 基准最优性能。消融实验验证了知识蒸馏与教师退火的有效性，Single→Multi 蒸馏策略提升显著（p < .001）[k]。

表 1：GLUE 开发集性能对比。∗∗∗ 表示 p < .001 的显著提升。

表 2：测试集结果对比。

分析还发现，多任务模型受益于更强的正则化效应以及任务间的知识迁移。特定任务组合（如 MNLI 与 QQP）可显著提升 RTE 表现，验证了跨任务学习的潜力[k]。

表 3：模型消融实验结果。

表 4：不同任务组合对 RTE 性能的影响。

论文链接：https://openreview.net/forum?id=SylnYlqKw4

摘要：训练性能媲美甚至超越单任务模型的多任务网络极具挑战。本研究提出利用单任务模型通过知识蒸馏指导多任务模型，并引入教师退火机制，使多任务模型在 GLUE 基准上达到当前最优准确率，证明其可有效实现跨任务知识迁移与性能提升[k]。

【声明】内容源于网络

机器之心

专业的人工智能媒体和产业服务平台

内容 17012

粉丝 0

机器之心专业的人工智能媒体和产业服务平台

总阅读87.8k

粉丝0

内容17.0k