1
遇见·摘要
近日,中国科学院微生物研究所陈义华研究员团队受邀在《Natural Product Reports》上发表了题为“Progress on targeted discovery of microbial natural products based on the predictions of both structure and activity”的热点综述,系统梳理了微生物天然产物发现领域的关键策略并展望了发展趋势(图1),为高效发掘新型活性微生物天然产物提供了重要技术参考。博士后张雨薇、宗建法(现为安徽农业大学讲师)、博士研究生刘煜峰为论文的共同第一作者,陈义华研究员和博士后张雨薇为共同通讯作者。
图1. 微生物天然产物挖掘策略的发展及可实现结构和活性双重预测的代表性方法
2
遇见·内容
天然产物(Natural Products, NPs)结构、活性多样,是药物发现的重要资源库。近40年间全球获批的小分子药物中,约三分之一直接源于天然产物及其衍生物,其中微生物天然产物更是抗生素、抗癌药、免疫调节剂等药物的关键来源。综述中,团队首先简要回顾了微生物天然产物发现领域经典的活性或结构导向策略:活性导向是20世纪40-60年代天然产物发现“黄金时代”的核心策略,挖掘流程依赖于微生物培养与活性筛选,研究者利用该策略成功发现了新霉素、红霉素等至今仍在临床应用的药物,但由于缺乏结构预测环节,重复发现率高;结构导向策略从21世纪初以来随着测序技术的进步不断发展,挖掘流程依托生物信息学预测生物合成基因簇(BGCs)及可能的产物结构,突破了传统培养的限制、拓展了新分子的来源,却由于缺乏活性预测难以确保分子的潜在药用价值。随着测序技术和组学研究飞速发展,大量未开发的微生物资源被不断揭示。面对海量数据,如何高效发现兼具结构新颖性和生物活性的天然产物成为该领域的核心挑战。为此,文章重点综述了四类可实现“结构–活性”双重预测的代表性天然产物靶向发现方法,包括构效关系(SAR)导向、自抗性基因导向、生态系统导向及人工智能(AI)辅助的发现方法。
构效关系(SAR)导向发现
构效关系(SAR)导向发现立足于已知微生物天然产物的构效关系,其核心原理是将催化活性结构单元合成的关键基因、功能结构域或完整生物合成基因簇(BGCs)作为“探针”,实现对兼具结构新颖性和特定活性的分子的筛选。该方法首先基于已解析的SAR规律,确定产生活性结构的对应基因“探针”;随后针对“探针”进行基因组/宏基因组水平的筛选,锁定具有新颖结构合成潜能的候选BGCs;再通过异源表达、体外酶促反应重构等技术获取目标化合物,最终结合波谱解析与生物活性测定完成结构确证与功能验证。
图2. 构效关系导向的挖掘策略
通过这一挖掘方法获得的代表性化合物包括烯二炔类化合物tiancimycin A(以关键基因tnmE为“探针”,具有良好的抗肿瘤活性);环氧酮蛋白酶体抑制剂(EPIs)clarepoxcin A、landepoxcin A(以环氧酮生物合成中的关键KS结构域基因为“探针”,是多发性骨髓瘤等疾病的潜在治疗药物);四环素类化合物misiomycin A(以四环素环化相关的关键酶基因OxyK、OxyN、OxyH、OxyI为“探针”,对耐甲氧西林金黄色葡萄球菌MRSA和耐万古霉素屎肠球菌VRE具有强效抗菌活性);多烯大环内酯抗生素mandimycin(以关键活性特征结构Mycosamine相关的胺糖基转移酶基因为“探针”,对多种多重耐药真菌病原体具有强效广谱活性,靶向真菌细胞膜中的多种磷脂)。
针对ADP-庚糖激活ALPK1-TIFA-NF-κB通路的免疫激动活性,陈义华课题组通过生物信息学分析揭示NDP-庚糖合成酶的跨域分布特征,通过表达不同来源的NDP-庚糖合成酶,获得了CDP-庚糖与UDP-庚糖两种新型激动剂,其诱导的ALPK1依赖性免疫反应强度显著高于天然ADP-庚糖。
此外,鉴于构效关系导向的方法对关键特征活性结构相关基因或基因簇进行预测,使得根据预测结果直接化学合成潜在活性化合物成为可能,促成了syn BNPs(合成-生物信息学天然产物)的诞生,代表性化合物有多粘菌素类化合物macolacin(以多粘菌素/黏菌素类生物合成基因簇为“探针”,发现编码新型十肽的BGC后通过化学合成和修饰后获得,对多重耐药革兰氏阴性菌具有优异抗菌活性);脂肽类化合物cilagicin(以脂肽中关键缩合起始结构域基因为“探针”并通过化学合成获得,对革兰氏阳性菌具有较好活性)。
该策略虽长期在微生物天然产物研究中发挥重要作用,但随着可利用微生物资源的快速增长,研究者需投入大量时间与实验资源筛选海量候选生物合成基因簇(BGC),筛选效率有待提升。未来如果能够进一步整合多数据库的基因-结构-活性关联数据,借助系统发育分析等技术辅助筛选更具潜力的候选BGC,则能更好的减少无效筛选成本,进一步提升该策略的挖掘效率。
自抗性基因导向发现
自抗性基因导向发现的核心机制基于微生物的自我保护进化逻辑——在合成具有细胞毒性的活性天然产物时,微生物通常通过自抗性基因(多为药物靶标管家基因的功能同源变体)实现自我保护,免受产物伤害。这类基因通常位于BGC内部或侧翼区域,可作为活性分子BGCs的特异性标志物。该策略首先筛选与目标活性(如抗菌、抗癌)相关的保守管家酶编码基因;再通过同源序列比对定位含该基因同源体的BGCs;继而采用异源表达、启动子置换等技术激活BGC并获取产物;最终通过靶标结合实验与活性测定验证分子功能。
通过这一挖掘方法获得的代表性化合物有:以FabB/F同源的脂肪酸合酶抗性基因为“探针”发现的硫代四氢呋喃酸类化合物、硫乳霉素类似物等,通过抑制II型脂肪酸合酶发挥抑菌活性;以拓扑异构酶靶向的五肽重复蛋白基因为“探针”,获得的吡啶并环素类化合物pyxidicyclines A、pyxidicyclines B,具有抑制大肠杆菌拓扑异构酶IV和人拓扑异构酶I的解旋活性;以支链氨基酸生物合成关键酶DHAD基因为“探针”发现的aspterric acid,具有广谱除草剂潜力;以ClbP蛋白酶基因为“探针”,获得的clipibicyclene,具有抗菌活性;以EF-Tu基因为“探针”发现的phenelfamycin B,对多重耐药淋病奈瑟菌具有抑制作用;以细胞周期蛋白依赖性激酶2(CDK2)基因为“探针”获得的CDK2抑制剂roseopurpurin C;以及以酰基辅酶A羧化酶自抗性模型基因为“探针”发现的FAST-NPS 3、FAST-NPS 4,具有抗菌和/ 或抗肿瘤活性等。
由于目前对微生物自抗性机制的认知仍不够全面,限制了可用于筛选的基因类型。如果能进一步发现更多微生物自抗性机制,丰富可应用的基因类型,同时深入研究NP 生物合成中的酶机制、优化扩充生物信息学分析工具以更精准区分真假自抗性基因,并将分析范围从BGC 内及附近扩展到更广泛的基因组区域,将能更好的突破现有局限,提升对新型活性NP的发现能力。
图3. 自抗性基因导向的发现策略
生态系统导向发现
生态系统导向发现基于微生物在自然生境中以群落模式定植,通过共生、竞争、捕食等种间/种内互作维系生态系统稳态的基本理论,长期协同进化使微生物合成的天然产物多具备适配生态功能的结构特征与活性属性,生境的生态位特征可直接为分子的结构新颖性与功能特异性提供预判线索。尽管该策略尚未形成统一标准化方案,但该策略大致可归纳为如下步骤:首先依据生态互作类型(如寡营养环境竞争、宿主-共生菌互作)选定靶标生境;进而分离培养生境微生物并结合生态关系设计活性筛选模型(如拮抗活性、宿主免疫激活活性筛选);通过基因组挖掘与代谢组分析建立BGCs与活性组分的关联,最终经分离纯化、结构解析与活性验证实现活性产物发掘。
图4. 生态系统导向的发现策略
通过这一挖掘方法获得的代表性化合物包括自20世纪60年代以来发现的新一类抗革兰氏阴性菌抗生素darobactin(从“昆虫病原线虫-肠道共生菌的共生关系”出发,通过针对线虫肠道中高丰度且与人类机会致病菌密切相关的革兰氏阴性菌筛选获得,靶向细菌外膜蛋白折叠必需的BamA蛋白,对铜绿假单胞菌、鲍曼不动杆菌等革兰氏阴性菌具有强效抗菌活性;化合物keanumycin A(借鉴“变形虫与假单胞菌的捕食关系”,具有抗真菌/杀变形虫活性,同时能抑制多种致病真菌及植物病原真菌的生长);化合物herbicolin A(从“植物病原真菌禾谷镰孢菌与关联细菌(成团泛菌)的竞争关系”出发,具有广谱抗真菌活性);化合物lugdunin(借鉴“人体鼻腔内共生菌路邓葡萄球菌与致病菌金黄色葡萄球菌的竞争关系”,对革兰氏阳性菌具有强效抗菌活性,具备免疫调节活性);化合物epifadin(从“人体鼻腔内共生菌表皮葡萄球菌与致病菌的竞争关系”出发,具有广谱抗菌活性)等。除了上述抗生素、免疫调节剂等活性化合物外,利用该策略还从人体微生物中鉴定出了一些对人具有毒性、致病性的化合物,例如遗传毒性毒性化合物colibactin(借鉴“人体肠道微生物大肠杆菌与宿主的互作关系”,有遗传毒性,并与结直肠癌(CRC)等人类疾病相关;细胞毒性化合物tilimycin、tilivalline(以“人体肠道致病菌产酸克雷伯菌与宿主的互作关系”出发,两化合物均具有细胞毒性,与结肠炎发病相关,影响人体肠道微生物群的平衡)。
目前该策略由于缺乏系统标准化的研究方法,导致难以通过现有文献研究和生物信息学工具,清晰建立化合物与其生态功能之间的关联,一定程度上影响了策略的推广应用。如果能建立更通用的微生物组研究标准(尤其是在微生物分类、测序方法等方面),同时进一步发展培养组学和人工微生物群落技术,更精准地模拟特定生境中的微生物互作关系,则能更好的解决活性化合物与生态功能关联难的问题,扩大该策略的应用场景。
该方法受生境异质性、培养条件差异等影响,难以建立标准化流程。未来需制定微生物组分类与测序标准,发展培养组学与人工微生物群落技术模拟自然互作,提升方法可重复性。
人工智能(AI)辅助发现
人工智能(AI)辅助发现通过整合深度学习、自然语言处理等算法,实现对基因组、代谢组等海量多维数据的高效解析,在BGC精准识别、复杂结构解析及高通量活性预判三个核心环节实现技术突破,其性能显著优于传统生物信息学工具,为结构与活性的同步预测提供了全新路径。现有技术工具中,BGC预测领域,BiGCARP(自监督掩码语言模型)与BGC Prophet(Transformer模型)实现了BGC的超高通量检测与精准分类;针对RiPPs(核糖体合成后修饰肽)这类缺乏典型合成基因的分子,NeuRiPP、DeepRiPP等工具通过学习修饰位点特征显著提升挖掘效率;活性预判层面,DeepBGC结合循环神经网络(RNNs)与随机森林分类器实现BGC-活性关联预测,PRISM4通过整合隐藏马尔可夫模型提升产物结构预测相似度,同步集成支持向量机(SVM)分类器完成抗菌、抗癌等活性类型预判。
图5. 人工智能辅助发现策略与现有工具
当前AI正快速与活性产物的发现深度融合。代表性工作例如陈义华、王军课题组合作于2022年开发基于自然语言处理神经网络的抗菌肽(AMP)挖掘管线,整合宏蛋白质组交叉验证与关联网络分析,将人体肠道微生物组中的候选AMP从2万余个精简至约200个,活性测试阳性率达83.8%,其中cAMP_1043对临床多重耐药菌表现出强效抑菌活性;抗癌肽pACP2283、pACP1780对多种癌细胞系具有抑制活性,且能显著缩小裸鼠肿瘤体积,其源自利用基于AMP与抗癌肽序列重叠性的AI筛选,使用AMP数据结合结直肠癌患者与健康人宏基因组中肽的相对丰度差异训练模型,从候选AMP中精准识别出在健康样本中显著富集的潜在ACPs;利用已知AMP序列分别训练AmPEP 随机森林分类器和SmORFinder工具并协同验证,对人类微生物组计划(HMP)宏基因组中四十余万个预测肽进行分析,识别出323个双模型共同检测的AMP,对其中78个合成AMP进行活性测试,阳性率达70.5%,其中prevotellin-2在体内的抗菌活性与多粘菌素B相当;AMPidentifier深度学习模型针对昆虫肠道共生菌的肽序列特征,用大量昆虫共生微生物来源的潜在AMP数据训练模型,从德国小蠊肠道共生菌Blattabacterium cuenoti中精准挖掘出AMP1,具有广谱抗菌活性,且在小鼠中展现强效伤口愈合作用;lachnospirin-1、enterococcin-1等抗菌肽源自整合了63410个宏基因组、87920个原核基因组中的肽序列数据的大规模宏基因组/原核基因组数据训练的机器学习模型,该识别出近100万个原核AMP序列,对100个测试AMP进行活性验证,其中79个表现出抗菌活性,63个可靶向病原体。
该策略虽显著提升了研究效率,但仍面临一些挑战:一是缺乏高质量、标准化的“基因(簇)-结构-活性”配对数据,影响AI模型的训练效果;二是对于结构复杂的天然产物分子,需要合适的分子表示方法来精准刻画其特征;三是AI模型对现有数据的利用效率仍有提升空间,部分模型的预测准确性和适用范围有待拓展。如果能持续优化AI方法,进一步整合文献和数据库中基因(簇)、化合物结构及活性的相关信息,提升模型训练的数据质量与数量,同时探索更适合复杂结构的分子表示方式,则能更好的发挥AI 技术的优势,大幅提升挖掘效率与精准度。
3
遇见·展望
首先,高质量数据标准化与数据库互通至关重要。MIBiG、NPASS 等现有天然产物数据库因信息标准不一难以高效整合,而质谱领域通过ReDU、MassQL 实现跨库统一分析的经验可借鉴。未来若能提升天然产物数据库互通性、建立统一标注标准,并积累高质量“基因(簇)- 结构- 活性”数据,将为双重预测策略夯实基础,加速新天然产物发现。
其次,AI技术的发展将为天然产物的研究带来极大帮助。在BGC预测、天然产物结构与活性预测中,AI已展现实力,但仍受复杂天然产物分子表征难、训练数据不足、应用集中于抗菌肽等问题制约。未来若能优化AI模型、扩充高质量数据、拓展应用场景,可推动双重预测进入“高通量虚拟筛选+精准验证”新阶段。
最后,多组学协同与多技术、多策略融合,能进一步释放双重预测效能。目前,前沿技术如蛋白质结构预测、分子对接等技术整合可辅助活性评估,“AI+生态系统引导”也已见成效。未来若能建立多组学统一标准、提升数据整合能力,同时融合合成生物学、结构生物学与传统策略,深度整合结构与活性双重预测,将更好地推动微生物天然产物的研究。
该工作获得国家自然科学基金(项目编号:32025002、32400090)及中国博士后科学基金会“国家资助博士后研究人员计划”(项目编号:GZB20230819)资助。
4
遇见·致谢
5
遇见·往期

