资讯｜用于构建多模态人工智能数据库的机器化学家系统

两江科技评论

2024-03-01

导读：中国科学技术大学江俊教授团队提出了利用机器化学家系统，将大规模数据挖掘、高性能计算模拟、高精准机器人实验三者结合，高效获取大规模标准统一、广泛覆盖的高质量科学数据，并自动化地检验数据，最终建立多模态数

人工智能正在越来越广泛地应用于化学研究中，大规模、高质量的数据能够赋予AI强大的能力，不仅能够实现精准预测，还能够从数据中总结出隐藏的物理规律。现有的科学数据来源广泛、类型众多、质量不一、过于分散，难以形成合力，成为AI应用于科学领域的一大阻碍。

针对上述问题，中国科学技术大学江俊教授团队近期在《国家科学评论》(National Science Review，NSR) 发表观点论文，提出了利用机器化学家系统，将大规模数据挖掘、高性能计算模拟、高精准机器人实验三者结合，高效获取大规模标准统一、广泛覆盖的高质量科学数据，并自动化地检验数据，最终建立多模态数据库的方案。作者团队前期开发的机器化学家系统，能够自动检索和阅读化学文献、智能设计实验流程、执行模拟-合成-表征-测试的全流程实验。基于该系统，作者阐述了如何通过发展一系列人工智能模型，实现数据的自动化高通量生产、分类、清洗、关联和融合。

图1 数据智能驱动的全流程机器化学家系统

首先，采用文献阅读、理论计算以及实验测量等手段，制定统一的实验数据采集标准和数据格式，全面地获取物质结构、性质以及物质间相互作用演化等多层次的物质信息数据。然后，从结构特征、光谱特征、实验配方、工艺流程、数据精度等多个角度对数据进行聚类分析与分类整理，精准地定义数据在分类上的相似性，并进行同类数据内的对比。接着，在同一类别的数据内，发展具有物理内涵的、可计算可测量的谱学描述符，建立可解释的智能模型和打分系统，以量化数据的质量，检测并剔除异常的数据点、预测填补出缺失的数据点，然后通过理论计算、机器人实验对有争议的数据进行验证，实现对数据质量的提升，最终构建出更为完备的数据库。

图2 多模态人工智能数据库的建立流程

该文还指出，基于不同数据的共同物质基础，以物质实体为中心，可以将其结构、性质等属性数据与实体相关联，采用构效、谱效、组效等映射关系分析手段，构建不同数据间的关联模型，提取同一物质基础对应数据的共性关联模式，建立包含结构、性质、演化关联性的物质科学知识图谱，形成多模态数据的对齐标准，从而制定统一、高效、可扩展、结构清楚、多模态对齐的数据存储格式，构建多模态融合的数据库。

多模态人工智能数据库的建立，可以为化学、材料、生物等领域的数据驱动研究提供富含材料特性和相关性的精确数据，还有望发展成为科学数据的通用管理系统，促进多学科数据交换，推动跨学科合作。

了解详情，请阅读全文

[点击下方链接或阅读原文] ▼

Feng, et al. A robotic AI-Chemist system for multi-modal AI-ready database. National Science Review, 2023, 10: nwad332

https://doi.org/10.1093/nsr/nwad332