人工智能正在越来越广泛地应用于化学研究中,大规模、高质量的数据能够赋予AI强大的能力,不仅能够实现精准预测,还能够从数据中总结出隐藏的物理规律。现有的科学数据来源广泛、类型众多、质量不一、过于分散,难以形成合力,成为AI应用于科学领域的一大阻碍。
针对上述问题,中国科学技术大学江俊教授团队近期在《国家科学评论》(National Science Review,NSR) 发表观点论文,提出了利用机器化学家系统,将大规模数据挖掘、高性能计算模拟、高精准机器人实验三者结合,高效获取大规模标准统一、广泛覆盖的高质量科学数据,并自动化地检验数据,最终建立多模态数据库的方案。作者团队前期开发的机器化学家系统,能够自动检索和阅读化学文献、智能设计实验流程、执行模拟-合成-表征-测试的全流程实验。基于该系统,作者阐述了如何通过发展一系列人工智能模型,实现数据的自动化高通量生产、分类、清洗、关联和融合。

图1 数据智能驱动的全流程机器化学家系统
首先,采用文献阅读、理论计算以及实验测量等手段,制定统一的实验数据采集标准和数据格式,全面地获取物质结构、性质以及物质间相互作用演化等多层次的物质信息数据。然后,从结构特征、光谱特征、实验配方、工艺流程、数据精度等多个角度对数据进行聚类分析与分类整理,精准地定义数据在分类上的相似性,并进行同类数据内的对比。接着,在同一类别的数据内,发展具有物理内涵的、可计算可测量的谱学描述符,建立可解释的智能模型和打分系统,以量化数据的质量,检测并剔除异常的数据点、预测填补出缺失的数据点,然后通过理论计算、机器人实验对有争议的数据进行验证,实现对数据质量的提升,最终构建出更为完备的数据库。
图2 多模态人工智能数据库的建立流程
该文还指出,基于不同数据的共同物质基础,以物质实体为中心,可以将其结构、性质等属性数据与实体相关联,采用构效、谱效、组效等映射关系分析手段,构建不同数据间的关联模型,提取同一物质基础对应数据的共性关联模式,建立包含结构、性质、演化关联性的物质科学知识图谱,形成多模态数据的对齐标准,从而制定统一、高效、可扩展、结构清楚、多模态对齐的数据存储格式,构建多模态融合的数据库。
多模态人工智能数据库的建立,可以为化学、材料、生物等领域的数据驱动研究提供富含材料特性和相关性的精确数据,还有望发展成为科学数据的通用管理系统,促进多学科数据交换,推动跨学科合作。
了解详情,请阅读全文
[点击下方链接或阅读原文] ▼
Feng, et al. A robotic AI-Chemist system for multi-modal AI-ready database. National Science Review, 2023, 10: nwad332
https://doi.org/10.1093/nsr/nwad332

