大数跨境

【ACL】文本摘要研究工作总结

【ACL】文本摘要研究工作总结 中国人工智能学会
2019-08-10
20
导读:转自 专知【导读】ACL2019于7月27日到8月2日于意大利佛罗伦萨举行,本文整理了会议收录的若干篇关于文

ACL2019文本摘要研究进展:数据集、模型与评估新突破[k]

涵盖多模态、抽取式与生成式摘要最新成果,推动自动摘要技术发展[k]

ACL2019于意大利佛罗伦萨举行,会议收录了多篇关于文本摘要的前沿研究,涵盖新数据集构建、多模态摘要、抽取式与生成式模型创新以及评估方法改进[k]

BIGPATENT:大规模连贯性摘要数据集[k]

  • http://arxiv.org/abs/1906.03741

提出包含130万份美国专利及其人工摘要的大规模数据集BIGPATENT,具有输入文本更长、关键信息分布均匀、实体丰富等特点,适用于抽象与连贯性摘要研究[k]。实验表明,不同模型在新闻与专利数据集上的表现差异显著,凸显跨领域测试的重要性[k]

Multi-News:大规模多文档新闻摘要数据集[k]

  • http://arxiv.org/abs/1906.01749

首个大规模多文档新闻摘要数据集,包含来自1500多个网站的56,216篇专业摘要[k]。作者同步提出分层抽象模型,在自动与人工评估中均取得优异表现,推动多文档摘要技术发展[k]

Talk-Summ:基于学术报告视频的论文摘要数据集[k]

  • http://arxiv.org/abs/1906.01351

构建1716对论文与会议报告视频的数据集,将口头报告视为论文摘要,实现完全自动化的训练数据生成,支持科学文献摘要的持续学习[k]

How2视频多模态摘要方法[k]

  • http://arxiv.org/abs/1906.07901

研究How2数据集上的视频摘要模型,提出融合自动语音识别、音频与视频表征的多模态方法,采用层次化注意力机制进行信息整合[k]。提出改进的ROUGE评估变体,并发现仅视频模型亦可与纯文本模型性能相当[k]

DPP与胶囊网络用于抽取式摘要[k]

  • http://arxiv.org/abs/1906.00072

针对多文档摘要中语义相似性建模不足问题,提出结合行列式点过程(DPP)、可学习抽取与胶囊网络的方法,提升句子相似性度量能力,在CNN/DM数据集上验证有效性[k]

上下文抽取摘要的自监督学习[k]

  • http://arxiv.org/abs/1906.04466

提出自监督训练框架用于抽取式摘要,加速模型训练并实现CNN/DM数据集上的性能小幅提升,同时支持长文本的有效表示学习[k]

多跳问答中的证据抽取与摘要联合建模[k]

  • http://arxiv.org/abs/1905.08511

基于HotpotQA任务,提出查询聚焦抽取器(QFE),将证据抽取视为摘要过程,实现无需预训练的SOTA证据检索性能,并在FEVER数据集上达到领先表现[k]

基于BERT的无监督摘要方法[k]

  • http://arxiv.org/abs/1906.03508

采用基于图的排序方法,利用BERT编码句子,提升经典无监督摘要效果[k]。模型在CNN/DM、NYT及中文新闻数据集TTNews上表现优异,展现良好跨领域适应能力[k]

HIBERT:文档级层次化预训练模型[k]

  • http://arxiv.org/abs/1905.06566

提出层次化双向Transformer(HIBERT),在词与句两级进行预训练,实现文档级表征学习[k]。在CNN/DM与NYT数据集上达到SOTA摘要性能,并提供BERT微调作为抽取式基线[k]

STRASS:基于句子嵌入的高效抽取摘要方法[k]

  • https://aclweb.org/anthology/papers/P/P19/P19-2034/

提出轻量且高效的抽取式摘要方法STRASS,利用句子嵌入空间语义信息进行摘要生成[k]。同时发布新数据集CASS,基于法国最高法院判决文本构建[k]

两阶段抽象摘要:内容选择与生成分离[k]

  • http://arxiv.org/abs/1906.00077

将抽象摘要分为内容选择与文本生成两个阶段,使用BERT完成句子抽取,再将结果输入序列模型生成摘要,提升模型可解释性与灵活性[k]

基于层次化Transformer的多文档摘要[k]

  • http://arxiv.org/abs/1905.13164

提出两阶段方法:先使用注意力机制提取关键句子,再通过Transformer生成摘要[k]。利用层次化文档表示提升信息整合能力[k]

BiSET:基于模板的双向选择性编码[k]

  • http://arxiv.org/abs/1906.05012

提出BiSET架构,在Gigawords数据集上实现基于自动检索模板的抽象摘要[k]。通过TF-IDF与神经网络联合排序,选取最相似文章的摘要作为生成模板[k]

基于主题模板与结构化解码器的摘要生成[k]

  • http://arxiv.org/abs/1906.04687

提出层次化模型,利用LDA获取主题模板指导文档与句子编码[k]。基于WikiSum构建WikiCat-Sum数据集,聚焦公司、电影与动物领域[k]

长度约束下的神经摘要全局优化[k]

  • https://www.aclweb.org/anthology/P19-1099

针对摘要长度不可控问题,提出长度约束优化方法[k]。在CNN/DM上验证多种模型与优化策略,综合评估ROUGE、生成时间与人工评分[k]

HighRES:基于重点标注的无参考摘要评估[k]

  • http://arxiv.org/abs/1906.01361

提出新的人类评估方法HighRES:先由标注者标注重要内容,再评估摘要的精确率、召回率与语言质量[k]。优势在于避免参考偏差、支持绝对评估与重复使用标注[k]。配套开源用户界面与改进版ROUGE[k]

摘要重要性的理论建模[k]

  • https://www.aclweb.org/anthology/P19-1101

在统一框架下形式化摘要中的重要性概念,涵盖冗余性、相关性与信息性等指标[k]。该研究获会议杰出论文奖,为摘要评估提供理论基础[k]

相关资源汇总:

https://github.com/recitalAI/summarizing_summarization/blob/master/README.md

【声明】内容源于网络
0
0
中国人工智能学会
中国人工智能学会官方订阅号,为广大智能科技工作者提供前沿资讯,学术分享,科普信息的的多媒体平管
内容 8182
粉丝 0
中国人工智能学会 中国人工智能学会官方订阅号,为广大智能科技工作者提供前沿资讯,学术分享,科普信息的的多媒体平管
总阅读66.8k
粉丝0
内容8.2k