▋1 研究背景
传统中药等天然产物通常指源自植物、海洋生物和微生物的固有成分或代谢物。几千年来,中药一直是治疗人类疾病的主要手段,至今仍是开发新药的重要宝库。据报道,已发现和确定大约150000~300000种天然产物。有综述指出,在1981年至2019年9月间,23.5%的新批准药物直接来自天然产物或其修改版本,其中在抗微生物药物中占比高达54.9%。如图 1所示,主要研究领域集中在癌症和抗菌药物上,而天然产物的修饰是主要手段。中药的化学成分具有结构多样性和复杂性的特点,其安全性和有效性已经历了几个世纪的医学应用验证。这种多样性和复杂性主要体现在组成化合物,如黄酮类、多糖、多酚、生物碱、萜类和苷类等。在疗效方面,许多著名的现代药物,如青蒿素、紫杉醇和喜树碱,都是基于中药中化学成分的发现和持续研究开发的。然而,由于其结构复杂性,快速高通量地发现、分析和识别中药中的化学成分仍然是中药研究的重点和难点。
图1 天然产物药物的药效分布。(A)天然产物(32),(B)源自天然产物,通常为半合成修改(155)
质谱因其高灵敏度、高分辨率、高速度的优势已成为中药分析的关键工具,可从复杂样品中提取保留时间、相对分子质量、分子式等详细信息,已广泛用于代谢组学,特别是在复杂方药系统和制剂的分析鉴定及定量方面,如甘草、人参、决明子、党参、石榴子、当归及中药复方开心散、葛根芩连汤、安宫牛黄丸等。通过质谱结合气相或液相色谱,分别分析挥发性和非挥发性成分,提高化合物检测的专属性和数量。此外,质谱新技术如质谱成像可直接获取切片上化合物的空间分布信息,为研究药效物质基础提供有力支持。Zhou等人利用基质辅助激光解吸电离质谱成像获得了黄芩地上部分和地下部分的空间图像,考察了不同次生代谢物的空间分布。Liu等人采用解吸电喷雾电离技术,确定了附子蒸制4 h是减毒存效的最佳时间。由以上可知,基于质谱的化学成分研究对中药新药的发现与开发具有重要作用。但是色谱-质谱联用技术中,气相色谱-质谱主要用于分析挥发性或半挥发性化合物,而液相色谱-质谱联用技术可以分析非挥发性、极性、热不稳定性和大分子物质等更广范畴的化合物。其分析成分的通用性使液相色谱-质谱技术更受欢迎。因此,建立完善可靠的中药化学成分液相色谱-质谱数据库成为中药已知成分高效鉴别及新成分发现的关键途径(图 2)。基于中药在我国的独特地位,国际上几个知名机构和研究团队先后构建了相关数据库,加快了中药化学成分的基础研究。
图2 质谱数据库与传统方法在化学成分鉴定中的比较
本文调研目前现存的中药及天然产物质谱数据库,综述其特点、检索方法、所包含信息和数据来源(表1),为中药化学成分鉴别提供理论支持,并促进质谱数据库的进一步发展和应用。另外,由于矿物药主要通过元素测定等方法进行研究,因此本文主要介绍质谱数据库在植物药及动物药中的应用。此外,对数据库鉴定的植物药及动物药样品进行总结(表2),体现其在科研和实际应用中的重要性。
表1 比较质谱数据库在传统中药和天然产品中的应用
表 2 质谱数据库在天然产物和中药中的实际应用
▋2 中药化学成分质谱数据库
2.1 中药代谢组数据库(LuMet-TCM)
2.2 赛默飞中药成分高分辨质谱数据库(OTCML)
2.3 SCIEX TCM MS/MS高分辨质谱数据库(SCIEX TCM-MS Database)
2.4 安捷伦-诗丹德标准天然产物高分辨质谱数据图谱库(TCM PCDL)
安捷伦-诗丹德标准天然产物高分辨质谱数据图谱库是用于探索中药和天然产物物质基础的重要工具。该数据库基于《中国药典》(2015年版)开发,目前包括近2565种天然化合物,涵盖了常见的结构类型,包括黄酮类、皂苷类、有机酸等。TCM PCDL包含超过20000张高分辨二级质谱图,以及每个化合物的中文名、英文名、植物来源、CAS号和ChemSpider号等附加信息。它可以与安捷伦多种软件工具结合使用,如差异分析软件Mass Profiler (MP)、组学软件Mass Profiler Professional (MPP)以及化学模式识别软件 Masshunter Classifier,协助研究人员在复杂的中药体系中探究活性成分,有助于推动中药种质资源研究、植物代谢研究和天然营养健康产品研发。如Li等人利用TCM PCDL快速鉴定了73种食用花卉中的870个成分,并将其应用于易混花卉快速鉴别的指纹图谱技术;Zhou等人鉴定了杏仁和桃仁中29种常见成分,并通过与化学计量学结合,发现丙基-β-龙胆二糖苷可以很好地区分这两种相似物质。但该数据库的局限性在于《中国药典》目前已经更新至2020年版,其中新增的一些或新发现的中药成分可能尚未收入数据库中,如果通过该数据库进行成分鉴定可能存在遗漏。
2.5 沃特世中药天然产物数据库
2.6 中国科学院上海有机化学研究所化学数据库(CSDB)
2.7 西北道地药材数据库
Zhang等人基于MySQL数据库管理系统,以Python为编程语言,Django为Web框架开发了网页应用程序。该数据库涵盖甘草、黄芩等10种西北特色药用植物,共2410个化合物及其2196条质谱数据,支持用户通过中英文名、CAS号、分子式、相对分子质量及药材名称检索基本信息。用户通过上传质谱数据,可以进行正、负相似度匹配的化合物鉴定结果查询,同时也支持文件导入多组数据集的同时查询。但该数据库中质谱数据主要源于文献,无丰度值,且所收录的药材种类有限,难以满足中药全面研究的需求。
▋3 中药相关的天然产物-质谱数据库
3.1 全球天然产物社会分子网络
3.2 MassBank
3.3 RIKEN串联质谱数据库(ReSpect)
3.4 mzCloud
mzCloud(https://www.mzcloud.org/)是一个高质量的质谱数据库,凭借其独特功能及广泛的应用范围受到研究界的重点关注。该数据库目前涵盖32,330种化合物和16,531,567条质谱数据,覆盖天然产物、内源性代谢物、农药等多个领域。mzCloud汇集了大量高质量、高精度、高分辨率的串联质谱图,所有数据均源自赛默飞质谱仪,确保了数据的准确性与可靠性。每张谱图均在多种碰撞能量和碎裂条件下采集,包含分子式、分子量、精确质量等详细信息,具有高度可重现性和匹配质量。此外,mzCloud支持多种检索方式(包括通过物质名称的关键词检索和质谱图检索),并提供多种过滤和查看选项。每周数据更新增强了研究者发现未知物参考信息的能力,从而提升鉴定准确度与可靠性。Oulkar等人通过mzCloud从荔枝不同部位(果肉、果皮和种子)鉴定出77种化合物,发现常被丢弃的果皮和种子比果肉含有更多多酚类成分,表明其多酚成分具有回收利用潜力;Yuan等人利用该数据库从不同品种菊花中鉴定出206种化合物,并通过PCA和PLS-DA筛选出17个特征标志物以区分不同菊花品种。但需注意的是,mzCloud主要侧重于内源性代谢物,数据库中收录的中药及天然产物数量相对有限。
3.5 生物信息学与分子设计研究中心质谱库-天然产物(BMDMS-NP)
BMDMS-NP是一个综合性、可免费访问的天然化合物电喷雾电离串联质谱(ESI-MS/MS)谱图库。目前,该数据库收录了2739种参考化合物,涵盖黄酮类、萜类、生物碱类、酚类、甾体类、香豆素类和苯丙素类等多种化合物类别。该谱库总共包含288,939张MS/MS谱图,这些谱图均使用高分辨率的Orbitrap和四极杆飞行时间(QTOF)质谱仪在多种碰撞能量(10、20、40、60和80 eV)下采集获得。此外,数据均采用动态噪声水平(Dynamic Noise Level)算法进行降噪处理,有效降低了噪声并增强了数据的清晰度,为研究人员提供了更高质量的数据。BMDMS-NP数据库提供灵活多样的搜索选项,支持按分子式、分子量、结构、InChIKey以及前体离子m/z值进行检索,从而能够有效实现对未知化合物的鉴定。
3.6 皂苷质谱数据库 (SMSD)
SMSD是一个专注于皂苷类化合物的开放获取质谱数据库(http://47.92.73.208:8082),为复杂基质(特别是中药和植物代谢组学研究)中皂苷类成分的鉴定提供了重要支持。该数据库收录了4196种皂苷,其中大部分源自PubMed文献,214种购自商业供应商。它提供SMSD ID、通用名称、化学式、CAS号、ChemSpider ID等关键信息,以及多种碰撞能量下的正负离子碎片数据。SMSD提供三大核心功能:"CLASSIFY"功能利用基于皂苷质量数据的逻辑回归模型,实现皂苷在所有代谢物中的分类;"SEARCH"功能通过前体离子和碎片离子数据鉴定皂苷;"METABOLITE"功能支持通过皂苷通用名(全称或部分名称)进行检索。例如Yang等人通过该数据库从萝卜中鉴定出三种皂苷成分,发现加热处理能促进功能性皂苷的转化,从而提升药材品质。但该数据库的局限性在于其研究范围专一,虽特别适用于皂苷相关研究,却难以应对以多成分相互作用为核心的现代研究需求。
3.7 PMhub 1.0
PMhub 1.0是一个旨在提供植物代谢物全面信息的综合性植物代谢组学数据库。该数据库不仅包含质谱数据,还整合了相关的基因组或转录组信息、化学反应及代谢通路等内容。PMhub目前收录了188,938个化合物(包含名称、化学式、分子量等相关数据)以及279,750张正负离子模式的高分辨率MS/MS谱图。此外,数据库还融合了相应的基因组与转录组数据,提供多种工具支持代谢物的综合遗传学分析。针对每个代谢物,可根据结构相似性和现有代谢通路重建模拟网络。PMhub具备强大的化合物检索功能,支持通过化合物ID、名称、分子式、SMILES、InChI等多种标识进行查询,更支持批量任务提交,允许研究者同时注释多个质谱数据集。但该数据库主要局限在于其大部分MS/MS谱图是通过CFM-ID算法模拟生成的正负离子模式数据,而非基于标准品实测的真实谱图。
▋4 中药质谱数据库的问题
4.1 数据质量和标准化
与GNPS、MassBank等大规模质谱数据库相比,中药质谱数据库在数据覆盖面上存在显著局限,未能全面涵盖中药所有必需化学成分。在数据采集过程中,各类噪声源的干扰是关键问题,会严重影响数据的准确性与可靠性。此外,实验条件(如温度、压力和pH值)的微小变化都可能导致质谱数据稳定性和一致性发生显著改变,造成峰位移和峰强度变化,从而降低数据可比性。同时,不同仪器和数据库在数据采集、处理、分析和注释过程中采用的标准与方法存在差异,进一步增加了数据解读的复杂性,降低了可靠性和可重复性,严重限制了数据的广泛适用性。为解决这些挑战,需在数据采集阶段遵循ISO/IEC标准,包括每日仪器校准、标准化样品前处理,并通过多中心合作建立跨平台数据校准模型。还可采用数据融合概念来减轻仪器差异对数据的影响。在噪声处理方面,可利用小波变换进行基线校正、采用Savitzky-Golay滤波器进行信号平滑等技术来提升数据质量。
4.2 数据更新不及时
相较于mzCloud等数据库的每周更新,中药质谱数据库的更新周期通常更为缓慢。例如基于《中国药典》(2015年版)构建的SCIEX中药质谱数据库,近年来更新极为有限。虽然其一级质谱数据覆盖广泛,但仅包含1315种中药化合物的MS/MS谱图,且近年新增甚少。这种滞后性一方面源于数据库的数据源多依赖科学文献和实验数据,需要投入大量时间进行采集、整理与整合,导致更新存在时延。若维护团队无法快速获取并吸纳新数据,更新频率便会持续降低。另一方面,中药质谱数据库作为商业化产品,主要服务于药物研发、质量控制等应用场景,频繁更新会产生较高成本。为最大化商业利益,数据库提供商可能采取更保守的更新策略。此外,用户需求也是影响更新频率的重要因素,若现有数据库已满足使用需求且用户未提出频繁更新要求,提供商便缺乏加速更新的动力。
4.3 数据库交互操作及检索功能
目前,部分中药质谱数据库可能无法支持所有常见的质谱数据文件格式(如raw、mzML等),用户在导入数据时需进行格式转换,增加了操作复杂性。在检索功能方面,多数数据库仅提供基础的关键词搜索,缺乏基于结构式或多条件组合的高级检索选项,难以满足用户多样化的查询需求。此外,由于质谱数据本身的复杂性和多样性,部分数据库对检索条件的匹配精度不足,可能返回大量无关结果。批量检索同样是重要的检索手段,随着质谱仪器检测能力不断提升,能够检测和识别的化学成分日益增多,批量检索已成为中药及中成药鉴定的刚需功能。
4.4 数据共享与安全性
受知识产权与数据安全等因素影响,许多中药化学成分质谱数据库采用商业化运营模式,其数据共享权限存在限制,导致可及性与普及度受限。这种封闭性阻碍了数据交换与科研协作,降低了数据利用效率与价值,不利于中医药研究的协同推进。此外,专有数据库需将数据安全置于首要位置,以防止数据泄露或未授权访问。但部分数据库的安全防护措施可能存在漏洞,可能导致数据被越权获取、篡改或不当使用,这将同时损害数据库所有者与用户的利益,并对中医药研究进展产生负面影响。
▋5 讨论
中药化学成分质谱数据库的发展已取得显著进展,极大推动了中医药研究的现代化进程。在技术层面,中药质谱数据库持续整合先进的匹配算法与评分函数,显著提升了数据检索的准确性与效率,使用户能快速获取所需信息。高质量的数据管理与精细化检索功能助力研究者对数据进行筛选、整合与深度分析,为中药活性物质研究、药物研发及临床应用提供支撑。展望未来,中药质谱数据库的研究与应用仍为机遇与挑战并存。随着数据共享理念日益普及,构建开放、全面且经过精准校勘的中药质谱数据库已成为行业刚需,以促进中药化学成分数据的广泛传播与利用,培育健康的数据共享生态。此外,数据库的持续扩容对加速中医药领域发展至关重要。同时,数据库功能模块的持续探索与创新尤为关键,包括引入人工智能等前沿技术以增强数据处理与分析能力。例如Barranco-Altirriba等人开发的mWISE R程序包,能有效从原始LC-MS数据中提取峰强度表、m/z值、保留时间和强度值,并将m/z值与KEGG数据库匹配,通过聚类筛选潜在候选物,最终基于扩散评分构建优先级清单。与xMSannotator等注释工具相比,mWISE具有更高灵敏度,其提出的化学结构更接近原始化合物(尽管尚未支持MS/MS数据比对)。类似地,Cao等人提出的MolSearch检索方法通过概率模型匹配小分子与质谱图,提升了鉴定效率与准确性,但其受限的化学键类型与重排规则可能影响检索精度。Young等人开发的小分子质谱预测模型MassFormer,结合Transformer与化学表征技术实现精准质谱预测,为化合物注释提供补充方案,但其泛化能力目前仅限于正离子模式的ESI Orbitrap质谱。最后,数据安全与隐私保护始终是首要考量。
综上所述,构建完善的中药质谱数据库对推进中医药研究具有决定性意义。这需要整合多仪器平台数据、遵循最新版《中国药典》标准,并实施先进的数据融合策略。为处理多样化原始数据格式,未来数据库应内置格式转换器以确保跨仪器兼容性。自动化大规模数据检索能力将成为刚需,而机器学习与质谱鉴定的深度融合将成为重要趋势。GNPS通过众包模式将谱库规模扩展40%,印证了社区驱动模式的有效性;PMhub 1.0则通过集成CFM-ID模拟MS/MS谱图,提供了经济高效的解决方案。
▋6 结论
质谱数据库在中药及天然产物成分高效鉴定方面展现出显著潜力。本研究对14个代表性质谱数据库进行了系统分析,详细阐述了其核心功能(如检索方式、数据来源与覆盖范围),在展示其成分鉴定应用价值的同时,也揭示了现有数据库的优势与局限性。尽管前景可观,但当前质谱数据库仍面临数据标准化不足、界面交互体验欠佳、检索功能受限及数据共享机制不完善等挑战,这些问题不仅制约了数据库的使用效能,也延缓了天然产物研究的发展进程。为弥补这些缺陷,我们主张构建开放共享的中药质谱数据库,以推动中药化学成分的研究。此类资源将显著提升数据利用效率,助力深度科学探索,并通过促进跨学科合作破解鉴定难题。总之,本综述系统性勾勒出中药质谱数据库发展的关键趋势与核心挑战,为推进代谢组学研究、传统医学阐释及中药新药研发提供了重要参考依据。

