大数跨境

潘锋教授Adv. Energy Mater. :基于作者消歧的材料知识图谱的构建与应用:回顾LiFePO4的发展史

潘锋教授Adv. Energy Mater. :基于作者消歧的材料知识图谱的构建与应用:回顾LiFePO4的发展史 科学材料站
2021-03-17
1
导读:该工作结合机器学习和依赖匹配算法发展了一套高精度且高效的同名消歧以及信息搜索的框架


文章信息

基于作者消歧的材料知识图谱的构建与应用:回顾LiFePO4的发展史
第一作者:聂志伟
通讯作者:李舜宁*,潘锋*
单位:北京大学深圳研究生院

研究背景

数据挖掘兴起于计算机科学领域,并逐渐在材料科学的研究中占有一席之地。材料信息学这一新兴领域现已成为材料科学研究进步的催化剂。
经过长时间的发展,大量的材料学术文献中积累了丰富的科学成果,以文本形式散布在文献中的科学知识一般仍由研究人员手动收集和分析,这通常十分耗时且难以保证信息的完整度。材料知识图谱作为高效的知识管理载体,能够大规模地从海量材料科学文献中进行信息抽取,建立实体之间的对应关系,有助于阐明实体之间的内在关联,这将极大地促进我们对科学知识发展的宏观及全面理解。

文章简介

基于此,来自北京大学深圳研究生院的潘锋教授和李舜宁副研究员团队在国际知名期刊Advanced Energy Materials上发表题为“Construction and Application of Materials Knowledge Graph Based on Author Disambiguation: Revisiting the Evolution of LiFePO4” 的文章。
该工作结合机器学习和依赖匹配算法发展了一套高精度且高效的同名消歧以及信息搜索的框架,在材料科学领域中建立了主体(作者)与客体(材料)之间的对应关系,构建了名为MatKG的材料知识图谱,并对锂离子电池正极材料LiFePO4进行自动化分析,生成其发展里程碑,追踪其研究趋势。
知识图谱在材料科学中的应用将为材料研究领域提供一个高效的信息处理平台,MatKG可以提供自动化的材料科学领域的信息获取方式,有助于融合和完善各个领域中的材料科学知识。

图1. 材料知识图谱的架构

本文要点

要点一:知识图谱是由相互连接的实体以及相关的属性组成的,高精度地实体消歧是准确构建知识图谱的前提,我们需要判断知识库中的同名实体是否代表不同的含义以及知识库中是否存在其他命名实体与之表示相同的含义。
在材料知识图谱中,作者的歧义化是知识库构建的主要障碍之一,因此,基于作者信息以及文本信息,我们结合机器学习和依赖匹配算法对材料知识图谱中的主体(作者)进行高精度消歧,并使用剪枝策略实现高效信息匹配和搜索,从而构建了MatKG的框架。

要点二:我们使用剪枝策略对CTANE算法进行改进,从而实现高效信息匹配和搜索。
使用剪枝策略后,搜索空间大大缩减,搜索速度得到了很大的提高,信息匹配的效率得到了明显提升。同时,MatKG相较于其他三种模型在精确度和召回率上都有更好的表现。
图3. MatKG在搜索速度和信息检索质量方面的评估。(a)剪枝后的CTANE算法与原CTANE算法在搜索时间上的比较;(b)使用Cora数据集比较机器学习模型、依赖匹配模型、ERBlox以及MatKG的精确度和召回率。

要点三:MatKG可以为不同领域的研究人员提供快速而客观的学术界趋势跟踪,我们以LiFePO4为例,利用建立好的知识图谱框架,对其进行自动化分析,关联相关学者及其研究信息,建立用于锂离子电池的LiFePO4的发展里程碑图。
图4. 用于锂离子电池的LiFePO4的发展里程碑图

我们引入MatKG,结合自然语言处理、机器学习等方法以系统地整理科学出版物中的知识,有助于探索潜在的知识联系,发现隐藏在数据和文本中的有价值的信息。我们相信,这会为材料科学研究带来新的见解和思考,为材料开发和设计开辟新的范式。

文章链接

Construction and Application of Materials Knowledge Graph Based on Author Disambiguation: Revisiting the Evolution of LiFePO4
https://doi.org/10.1002/aenm.202003580

通讯作者介绍

潘锋,北京大学讲席教授,北京大学深圳研究生院副院长、北京大学新材料学院创院院长。
1985年毕业于北大化学系,1988年获中科院福建物构所硕士(师从梁敬魁先生),1994年获英国Strathclyde大学博士。自2011年创建北京大学深圳研究生院新材料学院以来,致力于材料基因与大数据系统研发、结构化学新范式探索、基于中子大科学装置的材料和器件综合表征系统建设与应用、新能源材料与器件研究和应用、界面结构与特殊界面涂层材料及装备研发和应用等方面取得了系统性的创新成果。2012-2016年作为项目的首席科学家和技术总负责联合8家企业承担和完成了国家新能源汽车动力电池创新工程项目。2015年任科技部“电动汽车动力电池与材料国际联合研究中心”(国家级研发中心)主任。2016年作为首席科学家承担国家“基于材料基因组的全固态锂电池及关键材料研发”重点专项。发表了包括Nature Energy、Nature Nanotechnology、JACS、AM等在内的SCI代表性论文250余篇。获2018年美国电化学学会电池科技奖与深圳市自然科学一等奖(领军)和2016年国际电动车锂电池协会杰出研究奖,在锂电池材料方面的成果入选2019“中国百篇最具影响国际学术论文”。

李舜宁 博士。
分别于2013年和2018年在清华大学材料学院获得学士和博士学位,随后在北京大学深圳研究生院新材料学院从事博士后研究工作。现为北京大学深圳研究生院新材料学院副研究员,致力于电化学过程的第一性原理计算模拟研究,和电池材料与催化材料的高通量计算筛选。在Angew. Chem., Nano Energy, Chem. Mater.等期刊发表学术论文40余篇。


添加官方微信 进群交流

SCI二氧化碳互助群

SCI催化材料交流群

备注【姓名-机构-研究方向】

说明

🔹本文内容若存在版权问题,请联系我们及时处理。

🔹欢迎广大读者对本文进行转发宣传。

🔹《科学材料站》会不断提升自身水平,为读者分享更加优质的材料咨询,欢迎关注我们。

投稿请联系contact@scimaterials.cn

致谢

感谢本文作者对该报道的大力支持。

【声明】内容源于网络
0
0
科学材料站
内容 9163
粉丝 0
科学材料站
总阅读9.0k
粉丝0
内容9.2k