大数跨境
0
0

【荐读】基于柔性粒度的文本摘要自动化技术创新研究

【荐读】基于柔性粒度的文本摘要自动化技术创新研究 汉斯出版社
2021-10-28
2
导读:新一代泛在网的高速发展促使信息数据呈现爆炸式发展。


基于柔性粒度的文本摘要自动化技术创新研究

Research on Innovation of Text Summarization Automation Technology Based on Flexible Granularity


作者:

涂著刚, 李正军, 杨 敏:贵阳高新数通信息有限公司,贵州 贵阳


关键词:

文本摘要自动化;子词;字节对编码;粒度;Text Automation;Sub Words;Encoding Byte Pairs;Granularity


项目基金:

《基于自然语言处理技术的招投标公共服务平台研究与应用推广》,2020 年度贵阳市国家创新城市 “百城百园”行动项目,贵阳市科技局(筑科项目[2020] 22 号)。


原文链接:

https://doi.org/10.12677/CSA.2021.1110258




基于柔性粒度的文本摘要自动化技术创新研究

(节选)


新一代泛在网的高速发展促使信息数据呈现爆炸式发展,截至2021年6月,中国网民规模达10.11亿,较2020年12月增长2175万,互联网普及率达71.6%;在各类信息中,最常用的文本数据类型呈指数级增长,因此如何快速准确地定位目标文本数据,成为现阶段持续研究的热点和难点。



针对当今的文本摘要模型难以生成集外词以及缺乏对单词之间的联系进行有效建模的问题,在汉斯出版社《计算机科学与应用》期刊中,有论文提出了一种基于改进子词单元的生成式文本摘要模型。主要创新点集中在使用改进的子词分割算法将一个完整的单词分割成不相交的子词单元,实现同一含义但不同形态单词之间的联系加强,例如受单复数、时态影响的单词,有助于模型对单词之间的联系进行建模。同时,通过粒度更小的子词单元构成集外词,从而更好地体现单词之间的联系,缓解集外词难以生成的问题。



Gigaword数据集上各模型的实验结果表明,使用原始子词分割算法,模型取得了37.71(ROUGE_1)、18.43(ROUGE_2)和34.87(ROUGE_L)的结果;使用改进子词分割算法,模型取得了37.92(ROUGE_1)、18.94(ROUGE_2)和35.05(ROUGE_L)的结果。分别在ROUGE_1上提升了0.21、在ROUGE_2上提升了0.51、在ROUGE_L上提升了0.18。


实验结果证明,本文提出的柔性粒度字节对编码算法FG-BPE通过使用改进的子词分割算法,在保证同一含义的前提下,将完整单词分割成保持不同形态间联系的子词单元,实现面向单词间联系的有效建模系,模型性能得到有效提升;在此基础上,通过粒度更小的子词单元构成集外词,有效缓解了集外词难以生成的问题。





声明:本文转载仅仅是出于传播信息的需要,并不意味着代表本公众号观点或证实其内容的真实性;如其他媒体、网站或个人从本公众号转载使用,须保留本公众号注明的“来源”,并自负版权等法律责任。如本公众号内容不妥,或者有侵权之嫌,请先联系小编删除,万分感谢!



RECOMMEND

推荐阅读


多所985、211高校教授齐翻车,国自然最新通报批评出炉了!

【荐读】水葫芦对污水净化效果研究进展
因科研资金使用不当,大牛科学家被高校直接开除!整个研究所解散……






Wechat ID:HANSI_GUO

投稿联系:027-86758873

    QQ:2194278918

投稿邮箱2194278918@qq.com

合作联系:service@hanspub.org


点击“阅读原文”,免费下载论文

【声明】内容源于网络
0
0
汉斯出版社
汉斯出版社(Hans Publishers)是一家国际综合性出版机构,聚焦于国际开源 (Open Access) 中文期刊全球的出版发行。
内容 2466
粉丝 0
汉斯出版社 汉斯出版社(Hans Publishers)是一家国际综合性出版机构,聚焦于国际开源 (Open Access) 中文期刊全球的出版发行。
总阅读515
粉丝0
内容2.5k