大数跨境
0
0

传统中药质谱数据库的发展

传统中药质谱数据库的发展 医疗科技高峰论坛
2025-10-25
1
导读:▋1 研究背景传统中药等天然产物通常指源自植物、海洋生物和微生物的固有成分或代谢物。

1 研究背景


传统中药等天然产物通常指源自植物、海洋生物和微生物的固有成分或代谢物。几千年来,中药一直是治疗人类疾病的主要手段,至今仍是开发新药的重要宝库。据报道,已发现和确定大约150000~300000种天然产物。有综述指出,在1981年至2019年9月间,23.5%的新批准药物直接来自天然产物或其修改版本,其中在抗微生物药物中占比高达54.9%。如图 1所示,主要研究领域集中在癌症和抗菌药物上,而天然产物的修饰是主要手段。中药的化学成分具有结构多样性和复杂性的特点,其安全性和有效性已经历了几个世纪的医学应用验证。这种多样性和复杂性主要体现在组成化合物,如黄酮类、多糖、多酚、生物碱、萜类和苷类等。在疗效方面,许多著名的现代药物,如青蒿素、紫杉醇和喜树碱,都是基于中药中化学成分的发现和持续研究开发的。然而,由于其结构复杂性,快速高通量地发现、分析和识别中药中的化学成分仍然是中药研究的重点和难点。

图1 天然产物药物的药效分布。(A)天然产物(32),(B)源自天然产物,通常为半合成修改(155)

质谱因其高灵敏度、高分辨率、高速度的优势已成为中药分析的关键工具,可从复杂样品中提取保留时间、相对分子质量、分子式等详细信息,已广泛用于代谢组学,特别是在复杂方药系统和制剂的分析鉴定及定量方面,如甘草、人参、决明子、党参、石榴子、当归及中药复方开心散、葛根芩连汤、安宫牛黄丸等。通过质谱结合气相或液相色谱,分别分析挥发性和非挥发性成分,提高化合物检测的专属性和数量。此外,质谱新技术如质谱成像可直接获取切片上化合物的空间分布信息,为研究药效物质基础提供有力支持。Zhou等人利用基质辅助激光解吸电离质谱成像获得了黄芩地上部分和地下部分的空间图像,考察了不同次生代谢物的空间分布。Liu等人采用解吸电喷雾电离技术,确定了附子蒸制4 h是减毒存效的最佳时间。由以上可知,基于质谱的化学成分研究对中药新药的发现与开发具有重要作用。但是色谱-质谱联用技术中,气相色谱-质谱主要用于分析挥发性或半挥发性化合物,而液相色谱-质谱联用技术可以分析非挥发性、极性、热不稳定性和大分子物质等更广范畴的化合物。其分析成分的通用性使液相色谱-质谱技术更受欢迎。因此,建立完善可靠的中药化学成分液相色谱-质谱数据库成为中药已知成分高效鉴别及新成分发现的关键途径(图 2)。基于中药在我国的独特地位,国际上几个知名机构和研究团队先后构建了相关数据库,加快了中药化学成分的基础研究。

质谱数据库与传统方法在化学成分鉴定中的比较


本文调研目前现存的中药及天然产物质谱数据库,综述其特点、检索方法、所包含信息和数据来源(表1),为中药化学成分鉴别提供理论支持,并促进质谱数据库的进一步发展和应用。另外,由于矿物药主要通过元素测定等方法进行研究,因此本文主要介绍质谱数据库在植物药及动物药中的应用。此外,对数据库鉴定的植物药及动物药样品进行总结(表2),体现其在科研和实际应用中的重要性。

1 比较质谱数据库在传统中药和天然产品中的应用

图片

 2 质谱数据库在天然产物和中药中的实际应用

图片


2 中药化学成分质谱数据库

2.1 中药代谢组数据库(LuMet-TCM)


中药代谢组学数据库由上海鹿明生物科技有限公司开发,是一个以高准确性和高可靠性著称的综合性数据库。主要包括苷类、苯丙素类、黄酮类、萜类、甾醇类、生物碱类、酚类、鞣质及其他化合物,涵盖《中华人民共和国药典》收载的500余种中药材及其他常用、临床意义大的中药饮片。该数据库拥有5000余个中药标准品参照物,LuMet-TCM 2.0中包含20000余条串联质谱(MS/MS)数据,可以通过保留时间以及谱图碎片信息进行准确定性分析以保证准确性和可靠性。同时提供中药成分分类信息、来源信息、分子质量、分子式、CAS号、京都基因与基因组百科全书号等信息,方便进行中药成分的精准注释。但该数据库主要用于商业检测,不对外开放。


2.2 赛默飞中药成分高分辨质谱数据库(OTCML)


赛默飞中药成分高分辨质谱数据库是由赛默飞世尔科技公司和清华大学药学院药物发现平台联合开发的,其中所收录的中药药材均参考《中国药典》(2015年版)。利用Thermo Scientific Orbitrap设计的高分辨质谱平台,采集了1202种中药对照品的一级和碎片质谱,生成7124个串联质谱。每个化合物都关联CAS号、ChemSpider号和PubChem号,便于快速鉴定中药成分并发现未曾报道过的化合物,另外其配套的数据处理软件TraceFinder和Compound Discoverer还可以根据保留时间、不同加合物的质荷比、同位素丰度、碎片离子及其他数据搜索数据库,使化学成分鉴定更加准确。Fu等人利用赛默飞中药成分高分辨质谱数据库对清肺排毒颗粒进行分析,鉴定了其中108种化合物,为进一步的质量控制及机理研究提供了一定的线索。Sun等人对沙棘果、茎和叶进行了快速分析,鉴定了其中的102种化学成分,其中17种为首次在沙棘中鉴定。但是该库依赖于上述的高分辨质谱平台,对于使用其他质谱仪器的研究者可能需要进行额外的转化或者验证。


2.SCIEX TCM MS/MS高分辨质谱数据库(SCIEX TCM-MS Database)


由SCIEX和上海诗丹德标准技术服务有限公司联合发布,该数据库在中药成分分析中起着重要作用。该数据库以《中国药典》(2015年版)中的中药材为主,并包含如皂苷、类黄酮、黄酮苷、三萜类、苯乙醇苷类及有机酸等在内的活性中药成分数据。利用SCIEX专利的碰撞能量扩展(CE±CES)技术,可以在单次实验中生成具有多个碰撞能量(如20、40和60)的质谱,从而支持结构鉴定。该数据库包括20000多个中药化合物的一级质谱和1315个二级质谱。一级质谱数据库包含分子组成、质量以及草药来源等信息,MS/MS数据库则提供化合物结构和碎片离子信息。SCIEX OS软件可自动处理数据,根据分子质量、同位素丰度和库匹配生成总得分,以加速中药成分鉴定,并缩短分析时间。Li等人采用该数据库对远志的非药用部位(木质部)进行表征,并识别出188种化学成分,为全面开发木心以及了解引起某些副作用(如胸闷和呼吸困难)的物质基础提供了思路。该数据库的一个显著不足是用于参考标准的二级质谱数量相对较少,可能无法完全满足一些实验鉴定的要求。


2.4 安捷伦-诗丹德标准天然产物高分辨质谱数据图谱库(TCM PCDL)


安捷伦-诗丹德标准天然产物高分辨质谱数据图谱库是用于探索中药和天然产物物质基础的重要工具。该数据库基于《中国药典》(2015年版)开发,目前包括近2565种天然化合物,涵盖了常见的结构类型,包括黄酮类、皂苷类、有机酸等。TCM PCDL包含超过20000张高分辨二级质谱图,以及每个化合物的中文名、英文名、植物来源、CAS号和ChemSpider号等附加信息。它可以与安捷伦多种软件工具结合使用,如差异分析软件Mass Profiler (MP)、组学软件Mass Profiler Professional (MPP)以及化学模式识别软件 Masshunter Classifier,协助研究人员在复杂的中药体系中探究活性成分,有助于推动中药种质资源研究、植物代谢研究和天然营养健康产品研发。如Li等人利用TCM PCDL快速鉴定了73种食用花卉中的870个成分,并将其应用于易混花卉快速鉴别的指纹图谱技术;Zhou等人鉴定了杏仁和桃仁中29种常见成分,并通过与化学计量学结合,发现丙基-β-龙胆二糖苷可以很好地区分这两种相似物质。但该数据库的局限性在于《中国药典》目前已经更新至2020年版,其中新增的一些或新发现的中药成分可能尚未收入数据库中,如果通过该数据库进行成分鉴定可能存在遗漏。


2.5 沃特世中药天然产物数据库


沃特世公司开发的中药天然产物数据库,极大地推动了中药研究。该数据库包含了17000多种化合物,涵盖了2020年版《中国药典》收载的所有药材及其关联化合物。针对每一种药材,给出了其中文名、拼音(字母)和拉丁名。除基本的化学结构、分子式、精确质量、植物来源等数据外,还给出了通过离子淌度技术获得的碰撞截面积值。通过差异的碰撞截面积值可区分结构相似的不同化合物,提高了化合物鉴别的准确性。同时,该数据库与沃特世自主软件UNIFI和Progenesis QI等实现了无缝衔接,可以进行快速定性分析和深度的数据挖掘。例如,Lin等人鉴定了余甘子中的19种化学成分,且有效成分的含量有所增加,质量提高。但该数据库中二级碎片主要从化合物结构理论上推导,而非通过真实化合物标准品实验测得。


2.6 中国科学院上海有机化学研究所化学数据库(CSDB)


质谱数据库是上海有机所化学专业数据库系统的一部分,也是最早建设的化学专业数据库之一。它包括化合物结构、化学反应、红外光谱和质谱等多个数据库。其中,质谱数据库收录了包括生物碱、氨基酸、黄酮和萜类等在内的12000余种化合物的数据。数据库中的数据主要来自上海有机所及其合作单位的对照品、科研成果和实验数据。通过人工数字分析结合智能算法将质谱数据规划成逐级完善的层级结构,可实现根据化合物名称、CAS号、分子式、精确质量以及碎片离子数据的快速检索和深度分析。同时结合离子碎片关联规则、离子碎片查找系统等先进工具进一步提高了中药化学物质等复杂化合物的标注准确度。但该数据库主要面向已知化合物,不支持批量导入,难以满足大规模辨识的需求,用户界面交互性差。


2.7 西北道地药材数据库


Zhang等人基于MySQL数据库管理系统,以Python为编程语言,Django为Web框架开发了网页应用程序。该数据库涵盖甘草、黄芩等10种西北特色药用植物,共2410个化合物及其2196条质谱数据,支持用户通过中英文名、CAS号、分子式、相对分子质量及药材名称检索基本信息。用户通过上传质谱数据,可以进行正、负相似度匹配的化合物鉴定结果查询,同时也支持文件导入多组数据集的同时查询。但该数据库中质谱数据主要源于文献,无丰度值,且所收录的药材种类有限,难以满足中药全面研究的需求。


中药相关的天然产物-质谱数据库


虽然我国中药质谱数据库建设尚处于初期发展阶段,但全球多个优秀科研团队已率先建立了各具特色的天然产物-质谱数据库(图 3)。中药和天然药物具有相似的来源,化学相似性高,因此天然产物质谱数据库对中药化学成分的快速鉴定与研究具有重要价值。本文汇总了全球知名天然产物-质谱数据库信息,分析其优缺点,以期为中药研究者提供更广泛的见解与工具,推动中药化学和天然产物研究的发展。



图3 代表性天然产物质谱数据库的核心特征



3.1 全球天然产物社会分子网络


全球天然产物社会分子网络(GNPS)是基于大规模质谱数据的天然产物分析平台,作为开放获取数据库,旨在通过社交网络加速天然产物的发现与结构鉴定。该平台支持mzXML、mzML、mgf等格式的海量质谱数据快速处理分析,除公开数据库外,GNPS还支持其他研究者或机构上传共享数据。目前GNPS已收录22,644个化合物和235,850张质谱图,随着研究者持续上传共享,该数字还在不断增加,例如单萜吲哚生物碱数据库、地衣数据库、异喹啉与番荔枝科代谢物数据库等数据,规模不断扩大。GNPS提供质谱库搜索、化学结构预测、基于谱图相似性注释等强大分析工具与注释算法,协助用户快速准确鉴定未知化合物,该数据库已应用于中药复方及单味中药化学成分的快速鉴定。分子网络是GNPS平台核心分析工具之一,其构建基于化合物二级质谱碎片相似性:首先计算每个MS/MS谱图的余弦得分,筛选高分值(即高相似度)谱图—这些谱图可能源自相同化学成分。具有一致MS/MS谱图与余弦得分的分子被判定具有相同碎片成分化学结构,即视为"非重复"或同类分子。在此过程中,GNPS还会根据MS/MS谱图相似性聚类不完全相同但属于同一大类分子的类似物或化合物,从而构建分子网络。在未知化合物鉴定中,可通过GNPS找到结构相似的已知化合物,帮助研究者推测未知物的可能身份或类别。例如Wei等人利用离线二维液相色谱/超高效超临界流体串联四极杆飞行时间质谱(2D LC/UHPSFC-Q-TOF/MS)结合GNPS,从蟾酥中鉴定出229种化合物,其中包含首次发现的两个亚类化合物;Qu等人采用GNPS快速鉴定雷公藤中324种化合物;Cheng等人通过GNPS与UNIFI平台联用,从参环毛蚓中鉴定124种化合物,其中89种推定为新化合物。通过构建分子网络,研究者还能阐明化合物间的相似性与关联性,揭示天然产物的多样性、复杂性及潜在生物转化途径。


3.2 MassBank


MassBank是生命科学领域首个面向小分子化合物(<3000 Da)的公开质谱数据库,主要涵盖黄酮类、皂苷类、类胡萝卜素、磷脂和寡糖等化合物。该数据库采用ESI、EI、化学电离、大气压化学电离和基质辅助激光解吸电离等多种电离技术,并汇集了来自不同厂商的高分辨率(Q-TOF、Orbitrap)和低分辨率(QqQ, ion trap)质量分析器的数据。目前MassBank包含19,000张一级质谱图和28,000张二级质谱图。其显著特点是采用"合并谱图"信息—将同一化合物在不同碰撞能量或碎裂方式下产生的碎片离子整合为一张质谱图,从而降低鉴定结果对特定仪器设置或厂商的依赖性。用户可单个或批量检索质谱图的相似性,结果会显示相似度得分及重叠离子数,也可通过化合物名称和化学式进行搜索,但不能通过输入前体离子m/z进行查询。此外,用户还可通过输入特定离子或中性丢失的分子式来检索化合物。Lv等人利用MassBank从蕉芋中鉴定出54种化学成分,为其质量控制及进一步研发提供理论依据;Song等人通过该数据库从铁皮石斛中鉴定出56种化合物,包括5种生物碱、核苷酸和鞘脂类成分。其主要缺陷在于数据库中部分谱图存在噪声过高或提取质量较差的问题,且并非所有记录都经过充分整理和审核,导致部分注释存在偏差或错误,可能误导研究者并影响数据可靠性和研究结果的准确性。


3.3 RIKEN串联质谱数据库(ReSpect)


ReSpect是一个专注于植物化学物质的质谱数据库,旨在通过质谱数据分析阐明和注释植物中的复杂代谢物。目前该数据库包括3595种化合物和8649个质谱数据条目,其中76%来自163篇出版物,其余来自标准品,包括Q-TOF/MS数据的575种标准化合物和QqQ/MS数据的861种。通过构建植物特异性的质谱数据库,ReSpect缩小了未知化合物候选结构的范围,从而提高了结构解析的效率。ReSpect还建立了基于m/z的质谱数据查询系统,适用于仅提供碎片离子m/z的情况,提高了搜索的灵活性和准确性。Otify等人鉴定了不同生菜品种的195种成分,结合化学计量学发现所有品种均具有抗菌和溶血潜力,而红色品种具有较高的绿原酸和菊苣酸含量,表明其具有较好的抗氧化性。Joshi等使用ReSpect数据库验证了从瓜尔豆中提取的4种多酚化合物,并进一步确认了其作为氧化增强剂的作用。该数据库的主要缺点是低分辨质谱数据占较大比例,并且所涵盖的化合物数量较少,大多来自文献报道,在对化合物分析时不完整或错误鉴定的可能性大大增加。


3.4 mzCloud


mzCloud(https://www.mzcloud.org/)是一个高质量的质谱数据库,凭借其独特功能及广泛的应用范围受到研究界的重点关注。该数据库目前涵盖32,330种化合物和16,531,567条质谱数据,覆盖天然产物、内源性代谢物、农药等多个领域。mzCloud汇集了大量高质量、高精度、高分辨率的串联质谱图,所有数据均源自赛默飞质谱仪,确保了数据的准确性与可靠性。每张谱图均在多种碰撞能量和碎裂条件下采集,包含分子式、分子量、精确质量等详细信息,具有高度可重现性和匹配质量。此外,mzCloud支持多种检索方式(包括通过物质名称的关键词检索和质谱图检索),并提供多种过滤和查看选项。每周数据更新增强了研究者发现未知物参考信息的能力,从而提升鉴定准确度与可靠性。Oulkar等人通过mzCloud从荔枝不同部位(果肉、果皮和种子)鉴定出77种化合物,发现常被丢弃的果皮和种子比果肉含有更多多酚类成分,表明其多酚成分具有回收利用潜力;Yuan等人利用该数据库从不同品种菊花中鉴定出206种化合物,并通过PCA和PLS-DA筛选出17个特征标志物以区分不同菊花品种。但需注意的是,mzCloud主要侧重于内源性代谢物,数据库中收录的中药及天然产物数量相对有限。


3.5 生物信息学与分子设计研究中心质谱库-天然产物(BMDMS-NP)


BMDMS-NP是一个综合性、可免费访问的天然化合物电喷雾电离串联质谱(ESI-MS/MS)谱图库。目前,该数据库收录了2739种参考化合物,涵盖黄酮类、萜类、生物碱类、酚类、甾体类、香豆素类和苯丙素类等多种化合物类别。该谱库总共包含288,939张MS/MS谱图,这些谱图均使用高分辨率的Orbitrap和四极杆飞行时间(QTOF)质谱仪在多种碰撞能量(10、20、40、60和80 eV)下采集获得。此外,数据均采用动态噪声水平(Dynamic Noise Level)算法进行降噪处理,有效降低了噪声并增强了数据的清晰度,为研究人员提供了更高质量的数据。BMDMS-NP数据库提供灵活多样的搜索选项,支持按分子式、分子量、结构、InChIKey以及前体离子m/z值进行检索,从而能够有效实现对未知化合物的鉴定。


3.6 皂苷质谱数据库 (SMSD)


SMSD是一个专注于皂苷类化合物的开放获取质谱数据库(http://47.92.73.208:8082),为复杂基质(特别是中药和植物代谢组学研究)中皂苷类成分的鉴定提供了重要支持。该数据库收录了4196种皂苷,其中大部分源自PubMed文献,214种购自商业供应商。它提供SMSD ID、通用名称、化学式、CAS号、ChemSpider ID等关键信息,以及多种碰撞能量下的正负离子碎片数据。SMSD提供三大核心功能:"CLASSIFY"功能利用基于皂苷质量数据的逻辑回归模型,实现皂苷在所有代谢物中的分类;"SEARCH"功能通过前体离子和碎片离子数据鉴定皂苷;"METABOLITE"功能支持通过皂苷通用名(全称或部分名称)进行检索。例如Yang等人通过该数据库从萝卜中鉴定出三种皂苷成分,发现加热处理能促进功能性皂苷的转化,从而提升药材品质。但该数据库的局限性在于其研究范围专一,虽特别适用于皂苷相关研究,却难以应对以多成分相互作用为核心的现代研究需求。


3.7 PMhub 1.0


PMhub 1.0是一个旨在提供植物代谢物全面信息的综合性植物代谢组学数据库。该数据库不仅包含质谱数据,还整合了相关的基因组或转录组信息、化学反应及代谢通路等内容。PMhub目前收录了188,938个化合物(包含名称、化学式、分子量等相关数据)以及279,750张正负离子模式的高分辨率MS/MS谱图。此外,数据库还融合了相应的基因组与转录组数据,提供多种工具支持代谢物的综合遗传学分析。针对每个代谢物,可根据结构相似性和现有代谢通路重建模拟网络。PMhub具备强大的化合物检索功能,支持通过化合物ID、名称、分子式、SMILES、InChI等多种标识进行查询,更支持批量任务提交,允许研究者同时注释多个质谱数据集。但该数据库主要局限在于其大部分MS/MS谱图是通过CFM-ID算法模拟生成的正负离子模式数据,而非基于标准品实测的真实谱图。


中药质谱数据库的问题

4.1 数据质量和标准化


与GNPS、MassBank等大规模质谱数据库相比,中药质谱数据库在数据覆盖面上存在显著局限,未能全面涵盖中药所有必需化学成分。在数据采集过程中,各类噪声源的干扰是关键问题,会严重影响数据的准确性与可靠性。此外,实验条件(如温度、压力和pH值)的微小变化都可能导致质谱数据稳定性和一致性发生显著改变,造成峰位移和峰强度变化,从而降低数据可比性。同时,不同仪器和数据库在数据采集、处理、分析和注释过程中采用的标准与方法存在差异,进一步增加了数据解读的复杂性,降低了可靠性和可重复性,严重限制了数据的广泛适用性。为解决这些挑战,需在数据采集阶段遵循ISO/IEC标准,包括每日仪器校准、标准化样品前处理,并通过多中心合作建立跨平台数据校准模型。还可采用数据融合概念来减轻仪器差异对数据的影响。在噪声处理方面,可利用小波变换进行基线校正、采用Savitzky-Golay滤波器进行信号平滑等技术来提升数据质量。


4.2 数据更新不及时


相较于mzCloud等数据库的每周更新,中药质谱数据库的更新周期通常更为缓慢。例如基于《中国药典》(2015年版)构建的SCIEX中药质谱数据库,近年来更新极为有限。虽然其一级质谱数据覆盖广泛,但仅包含1315种中药化合物的MS/MS谱图,且近年新增甚少。这种滞后性一方面源于数据库的数据源多依赖科学文献和实验数据,需要投入大量时间进行采集、整理与整合,导致更新存在时延。若维护团队无法快速获取并吸纳新数据,更新频率便会持续降低。另一方面,中药质谱数据库作为商业化产品,主要服务于药物研发、质量控制等应用场景,频繁更新会产生较高成本。为最大化商业利益,数据库提供商可能采取更保守的更新策略。此外,用户需求也是影响更新频率的重要因素,若现有数据库已满足使用需求且用户未提出频繁更新要求,提供商便缺乏加速更新的动力。


4.3 数据库交互操作及检索功能


目前,部分中药质谱数据库可能无法支持所有常见的质谱数据文件格式(如raw、mzML等),用户在导入数据时需进行格式转换,增加了操作复杂性。在检索功能方面,多数数据库仅提供基础的关键词搜索,缺乏基于结构式或多条件组合的高级检索选项,难以满足用户多样化的查询需求。此外,由于质谱数据本身的复杂性和多样性,部分数据库对检索条件的匹配精度不足,可能返回大量无关结果。批量检索同样是重要的检索手段,随着质谱仪器检测能力不断提升,能够检测和识别的化学成分日益增多,批量检索已成为中药及中成药鉴定的刚需功能。


4.4 数据共享与安全性


受知识产权与数据安全等因素影响,许多中药化学成分质谱数据库采用商业化运营模式,其数据共享权限存在限制,导致可及性与普及度受限。这种封闭性阻碍了数据交换与科研协作,降低了数据利用效率与价值,不利于中医药研究的协同推进。此外,专有数据库需将数据安全置于首要位置,以防止数据泄露或未授权访问。但部分数据库的安全防护措施可能存在漏洞,可能导致数据被越权获取、篡改或不当使用,这将同时损害数据库所有者与用户的利益,并对中医药研究进展产生负面影响。


5 讨论


中药化学成分质谱数据库的发展已取得显著进展,极大推动了中医药研究的现代化进程。在技术层面,中药质谱数据库持续整合先进的匹配算法与评分函数,显著提升了数据检索的准确性与效率,使用户能快速获取所需信息。高质量的数据管理与精细化检索功能助力研究者对数据进行筛选、整合与深度分析,为中药活性物质研究、药物研发及临床应用提供支撑。展望未来,中药质谱数据库的研究与应用仍为机遇与挑战并存。随着数据共享理念日益普及,构建开放、全面且经过精准校勘的中药质谱数据库已成为行业刚需,以促进中药化学成分数据的广泛传播与利用,培育健康的数据共享生态。此外,数据库的持续扩容对加速中医药领域发展至关重要。同时,数据库功能模块的持续探索与创新尤为关键,包括引入人工智能等前沿技术以增强数据处理与分析能力。例如Barranco-Altirriba等人开发的mWISE R程序包,能有效从原始LC-MS数据中提取峰强度表、m/z值、保留时间和强度值,并将m/z值与KEGG数据库匹配,通过聚类筛选潜在候选物,最终基于扩散评分构建优先级清单。与xMSannotator等注释工具相比,mWISE具有更高灵敏度,其提出的化学结构更接近原始化合物(尽管尚未支持MS/MS数据比对)。类似地,Cao等人提出的MolSearch检索方法通过概率模型匹配小分子与质谱图,提升了鉴定效率与准确性,但其受限的化学键类型与重排规则可能影响检索精度。Young等人开发的小分子质谱预测模型MassFormer,结合Transformer与化学表征技术实现精准质谱预测,为化合物注释提供补充方案,但其泛化能力目前仅限于正离子模式的ESI Orbitrap质谱。最后,数据安全与隐私保护始终是首要考量。

综上所述,构建完善的中药质谱数据库对推进中医药研究具有决定性意义。这需要整合多仪器平台数据、遵循最新版《中国药典》标准,并实施先进的数据融合策略。为处理多样化原始数据格式,未来数据库应内置格式转换器以确保跨仪器兼容性。自动化大规模数据检索能力将成为刚需,而机器学习与质谱鉴定的深度融合将成为重要趋势。GNPS通过众包模式将谱库规模扩展40%,印证了社区驱动模式的有效性;PMhub 1.0则通过集成CFM-ID模拟MS/MS谱图,提供了经济高效的解决方案。


6 结论


质谱数据库在中药及天然产物成分高效鉴定方面展现出显著潜力。本研究对14个代表性质谱数据库进行了系统分析,详细阐述了其核心功能(如检索方式、数据来源与覆盖范围),在展示其成分鉴定应用价值的同时,也揭示了现有数据库的优势与局限性。尽管前景可观,但当前质谱数据库仍面临数据标准化不足、界面交互体验欠佳、检索功能受限及数据共享机制不完善等挑战,这些问题不仅制约了数据库的使用效能,也延缓了天然产物研究的发展进程。为弥补这些缺陷,我们主张构建开放共享的中药质谱数据库,以推动中药化学成分的研究。此类资源将显著提升数据利用效率,助力深度科学探索,并通过促进跨学科合作破解鉴定难题。总之,本综述系统性勾勒出中药质谱数据库发展的关键趋势与核心挑战,为推进代谢组学研究、传统医学阐释及中药新药研发提供了重要参考依据。



该文章发表于《中医药科学(英文)》(Science of Traditional Chinese Medicine 2025年第3卷第3期。

【声明】内容源于网络
0
0
医疗科技高峰论坛
1234
内容 4013
粉丝 0
医疗科技高峰论坛 1234
总阅读12.5k
粉丝0
内容4.0k