2024 年 5 月 8 日,谷歌 DeepMind 与 Isomorphic Labs 联合在《自然》期刊上发布蛋白质领域最新人工智能模型 AlphaFold 3!这一模型能够准确预测蛋白质、DNA、RNA 以及配体等生命分子的结构及其相互作用方式。这是继AlphaFold 2 之后的又一重大突破
在预测类药物相互作用方面,AlphaFold 3 实现了前所未有的准确度,包括蛋白质与配体的结合以及抗体与其靶蛋白的结合。在 PoseBusters 的基准测试中,AlphaFold 3 的准确率比现有最佳传统方法高出 50%,而且无需任何结构信息输入,成为首个超越传统物理预测工具的人工智能系统。这种预测抗体与蛋白质结合的能力,对于理解人类免疫反应的各个方面以及新抗体的设计至关重要。
1977 年,英国生物化学家弗雷德里克·桑格(Frederick Sanger)在解析 ΦX174 噬菌体基因组时,首次发现了一个颠覆认知的现象:这个仅 5.4kb 的 DNA 分子编码的蛋白质总长度,远超其物理容量限制。测序结果揭示,两对基因通过不同阅读框架共享同一 DNA 区域——这种被称为重叠基因(OLG)的现象,在病毒世界中极为普遍。 例如,乙型肝炎病毒 3.2kb 基因组中,50% 区域被多对重叠基因覆盖,超过半数已知病毒至少含有一个 OLG 。
这种突破直觉的基因组设计,暗藏着病毒的生存智慧:当病毒在宿主细胞内争夺有限空间时,OLG 通过「基因叠罗汉」策略,让单个核苷酸同时参与两个密码子编码,在紧凑序列中实现功能叠加。桑格团队的发现开启了相关研究,后续研究表明,OLG 编码的蛋白质常具有高序列简并性(degenerate),其氨基酸序列容错性使两种功能蛋白能在同一 DNA 链共存。更关键的是,即使需要形成明确三维结构的蛋白质,也能通过序列编排,在不同阅读框架中实现折叠兼容。
然而,核心疑问始终存在:标准遗传密码下,氨基酸序列简并性能否支持任意功能蛋白对在重叠框架中折叠?当核苷酸需兼顾双重编码时,蛋白质折叠的序列空间是否被严重限制?
美国华盛顿大学 David Baker 团队近期利用先进 生成模型,通过合成 OLG 设计研究,从工程化角度验证其可行性。 研究团队针对两个蛋白家族设计重叠序列,编码高度有序的从头设计蛋白结构,计算机模拟与实验验证均显示出极高成功率:在重叠约束下,可变阅读框架(alternative reading frames)不仅能容纳明确三维折叠,同时其结构稳定性与功能完整性与非重叠序列相当
国内主要从事AI蛋白质设计的高校
北京大学、国际机器学习研究中心、清华大学
中国科学院计算技术研究所、中国人民大学、上海交通大学
复旦大学、上海科技大学、中国科学院上海药物研究所
中国科学院分子细胞科学卓越创新中心
浙江大学、西湖大学、浙江工业大学、
深圳先进技术研究院、清华大学深圳国际研究生院
南方科技大学、中国科学技术大学
厦门大学、山东大学、中国科学院天津工业生物技术研究所
作为2024年最值得期待的技术!
AI蛋白质设计资料与学习途径少之又少,特培训学习迫在眉睫!郑州清瑞信息科技有限公司联合清华大学、北京大学、西湖大学、浙江大学、中国科技技术大学、天津大学、协和药物研究所已经举办培训四十余期,参会学员达5000余人!学员好评极高!其中不乏有发表Nature、Cell、Science等国际顶刊!
讲师介绍
主讲老师来自北京大学,从事AI for science方向研究,目前的主要研究方向是人工智能辅助的蛋白质等分子体系的采样,在分子模拟上由丰富的实战经验。已在JCIM、communications physics等国际期刊上发表数篇文章,其设计的蛋白质采样算法UFConf的发表文章,被选为JCIM杂志的当期封面文章以及编辑推荐,具有广泛的影响力
学员评价
AI蛋白质设计课表
一、蛋白质设计概述与工具准备实操
1.为什么要做蛋白质设计?
蛋白质广阔的可能结构空间
2.蛋白质设计方法分类
目前最佳解决方案:
蛋白质结构预测:Alphafold2,Rosettafold2
固定结构序列预测:ProteinMPNN
从头设计:RFDiffusion+ProteinMPNN+Alphafold2迭代
3.Vscode的使用,ssh连接超算集群(实操)
VScode的安装
Remote ssh插件安装
~/.ssh/config中配置username, ip信息
4.Linux的配置,创建python环境(实操)
Conda create -n env_name python=3.9
5.超算作业提交(实操)
Slurm作业管理系统的教学,sbatch, salloc,scancel的使用
6.生成模型概览,特别讲Diffusion model理论
二、深度学习蛋白质结构预测方法1.基于深度学习的模型--Alphafold2、Rosettafold
AF2成功的原因:
a.利用MSA信息
b.Transformer提取行纵MSA的信息
c.Recycling
d.自蒸馏数据集(pLDDT的引入)
2. AF2 本地运行(实操)
2.1基于Alphafold2的复现工作—Openfold、Unifold
3.Alphafold2上机实操
3.1MSA由mmseqs2 api生成,不需要下载结构和序列的数据集(需要3TB的空间)
4.基于语言模型的模型—ESMfold(实操)
4.1ESMfold的逻辑:用Masked LM替代掉AF2中的MSA模块
4.2ESMfold安装:(确保nvcc安装)
5.蛋白质多链结构预测—Alphafold multimer
6.蛋白-核酸复合物预测—RosetaffoldNA(实操)
Add nucleic acid representation
7.蛋白-核酸-小分子复合物预测—Rosetaffold-all atom, Alphafold3
蛋白质多构象预测(模拟)
1. 基于传统物理能量的方法—分子动力学MD
2. 基于MSA操纵的方法—MSA subsampling、AF cluster(实操)
MSA subsampling方法子采样AF2的MSA输入
MSA subsampling方法
2.1环境配置与AF2一样
2.2AF_cluster方法
2.3环境配置与AF2一样运行
2.4生成MSA
2.5模型预测
3.基于生成模型的方法—Alphaflow、UFConf、DiGAlphaflow uses flow matching(实操)
3.1Alphaflow方法
3.2python环境配置运行
3.3input_csv代表蛋白的序列信息
3.4msa_dir代表MSA的路径
3.5weights代表使用的模型
3.6.samples代表采样数目
4.UFConf使用Diffusion model(实操)
1.扩散模型原理
2.UFConf run
3.不同采样模型的比较
4.采样模型的应用
1.蛋白质数据集挖掘工具
1.1序列比对和聚类工具
1.2BLAST速度慢
2.序列快速比对工具MMseqs2
2.1.对角线上的k-mer短序列匹配
22.table查找对应target序列上k-mer出现的位置
2.3.target序列和query序列的匹配
3.结构比对和聚类工具
3.1TM-align
4.结构快速比对工具Foldseek
41Foldseek团队与mmseqs系列对比
5.Foldseek上机实操
6、深度学习蛋白质口袋搜索工具
6.1.蛋白质口袋搜索
6.2Alpha sphere
7.基于结构的蛋白质口袋搜索工具--Fpocket、CavityPlus(实操)
8.基于轨迹(多构象)的蛋白质口袋搜索—Mdpocket(实操)
9.基于深度学习的蛋白质小分子结合位点预测工具—Diffdock
Diffdock上机实操
1.基于深度学习的蛋白质设计概览
2.结构生成模型--RFDiffusion
3.RFDiffusion是一个conditional的结构生成模型(实操)
3.3.RFDiffusion:基于RosettaFold
3.4.RFDiffusion-All-Atom:基于RosettaFold-All-Atom
3.5.RFDiffusion上机实操
3.6.RFDiffusion设计骨架结构
4.逆折叠模型--ProteinMPNN(实操)
4.1inverse folding模型
4.2ProteinMPNN逆折叠设计序列上机实操
5.利用AF2提高蛋白质设计的成功率(实操)
5.1Alphafold2折叠设计序列
5.2筛选选Alphafold2中pLDDT较高的序列
5.3预测结构作迭代
6.Binder design设计流程
6.1RFDiffusion设计binder
6.2ProteinMPNN-FastRelax Binder Design设计
6.3AF2 complex prediction设计
7.结构序列生成模型--ProteinGenerator
7.1ProteinGenerator是结构和序列的生成
六、深度学习大语言模型的蛋白质设计
1.深度学习酶设计(实操)
11.酶设计基本原理
1.2.酶学性质预测
1.3.RFDiffusionAA模型
1.4RFDiffusionAA与RFDiffusion对比
2.基于语言模型的蛋白质设计
2.1Progen模型(实操)
2.2Progen的训练
2.3conditional tag下的语言模型训练
3.ESM2、ESM3(实操)
3.1多模态ESM3语言模型
3.2序列、结构和功能三个模块的训练
顶刊复现:
1.Diego del Alamo et al. (2022) Sampling alternative conformational states of transporters and receptors with AlphaFold2 eLife.
2.Wayment-Steele, H.K., Ojoawo, A., Otten, R. et al. Predicting multiple conformations via sequence clustering and AlphaFold2. Nature 625, 832–839 (2024).
3.Matthias Glögl et al. ,Target-conditioned diffusion generates potent TNFR superfamily antagonists and agonists.Science386,1154-1161(2024).
七、深度学习酶设计实战应用
1.基础知识讲解
酶的过渡态理论,theozyme,fitness landscape,epistasis
2.从Frances H. Arnold(2018年因在酶的定向进化领域的贡献获得诺贝尔化学奖)的工作看酶的定向进化方法的发展
1.传统定向进化实验流程
2.MLDE(Mechine Learning Directed Evolution), 学习序列与酶性能之间的映射关系,推荐新的突变组合(PNAS文章)
3.ftMLDE(focused training MLDE),主动学习流程,构建informative的训练数据(Cell Systems文章)
3.酶的从头设计
1.从头设计Diels-Alder催化酶
a)基于Rosetta的Inside-out策略(Science文章)
b)通过Foldit蛋白质折叠游戏改善结构问题(Nat. Biotechnol.文章);
c)Foldit蛋白质折叠游戏的实践*
2.从头设计荧光素酶,Family-wide hallucination,基于该酶家族的结构幻化出新的结构(Nature文章)
3.RFdiffusion+PLACER从头设计丝氨酸水解酶(Science文章)
4.利用预测结构的相似性,挖掘序列的新酶功能(cell文章)*
1.InterPro数据库中下载数据
2.TM-score计算结构距离
3.UPGMA结构聚类,画出进化树
4.挑选序列
通过课程学习您将得到
课程将详细讲解多种蛋白质结构预测模型,包括Alphafold2、Rosettafold2、ESMfold、RosettafoldNA、Rosettafold All Atom和AlphaFold3让学员都能够掌握多种蛋白质结构预测模型的使用并对不同的蛋白质采样方法作以对比。让学员都能够掌握蛋白质多构象采样方法与模型使用工具,深度学习蛋白质数据集挖掘工具与蛋白质口袋搜索工具并进行上机演示,学员将了解这两种工具的理论基础,并通过实际操作演示,掌握如何进行蛋白质口袋的识别与分析。基于深度学习的蛋白RFDiffusion(结构生成模型)、ProteinMPNN(逆折叠模型)、ProteinGenerator(结构与序列生成模型)利用Alphafold2来提升蛋白质设计的成功率;让学员都能够掌握david baker 的核心技术
AIDD人工智能药物发现与设计顶刊复现
课程目标
Science Technology
AIDD人工智能药物发现与设计:是人工智能和机器学习技术使制药领域实现了现代化。目前机器学习和深度学习算法已被应用于多肽合成、虚拟筛选、毒性预测、药物监测和释放、药效团建模、定量构效关系、药物重定位、多药理和生理活性等药物发现过程。可以很好的将传统的面向化学的药物发现与人工智能药物设计相结合。此外,世界各地的系统生物学和化学科学家与计算科学家合作,开发现代ML算法和原理,大大的可以促进药物的发现和开发。
AIDD授课老师老师,有十余年的计算机算法研究和程序设计经验。研究方向涉及生物信息学,深度学习,药物靶标识别,药物不良反应等。参与了国自然基金2项,主持了省厅级科研项目3项。一作身份发表SCI论文数篇,包括BMC Bioinformatics, Journal of Biomedical Informatics, International Journal of Molecular Sciences等知名期刊。
AIDD人工智能药物发现与设计课程内容
第一天
环境搭建与深度学习基本知识讲解
1.AIDD概述:从CADD到AIDD
2.软件安装与环境搭建
(1)anaconda
(2)vscode
(3)环境变量的配置
(4)切换pip和conda镜像源
(5)虚拟环境的创建
3.RDKIT工具包的使用
(1)基于RDKit的分子读写
(2)基于RDKit的分子绘制
(3)基于RDKit的分子指纹与分子描述符
(4)基于RDKit的化合物相似性与子结构
4.药物综合数据库的获取方法
(1)基于requests的基本爬虫操作
(2)小分子数据库PubChem数据获取(pubchempy / requests)
(3)蛋白质数据库PDB、UniProt数据获取
5.深度学习辅助药物设计
(1)神经网络基本概念与sklearn工具包介绍
(2)图神经网络与消息传递机制基本知识
(3)Transformer模型基本知识:分词、位置编码、注意力机制、编码器、解码器、预训练-微调框架、huggingface 生态介绍
(4)模型的评估与验证:准确率、精确率、召回率、F1分数、ROC曲线、AUC计算,平均绝对误差、均方差、R2分数、可释方差分数,交叉验证等
第二天
顶刊复现专题1——分子与生化反应的表示学习与性质预测助力药物发现
培训背景:在人工智能辅助药物发现(AIDD)中,分子与生化反应的表示学习与性质预测是整个研究流程的基石。分子的结构决定其功能,如何将复杂的分子结构和生化反应过程有效地表示为计算模型能够理解的形式,是实现高效预测和优化的前提。通过构建合理的分子表示(如图神经网络、SMILES编码、指纹等),我们可以让AI模型捕捉关键的化学特征,进而用于预测分子的物理化学性质、生物活性、毒性等,为后续的虚拟筛选、分子生成与反应设计提供可靠基础。因此,本专题不仅奠定了AIDD中建模与预测能力的核心能力框架,也为整个药物发现过程中的智能决策打下了坚实基础。
培训内容1:
Nature Machine Intelligence|基于注意力的神经网络在化学反应空间映射中的应用《Mapping the space of chemical reactions using attention-based neural networks》
1.数据集
1.1.Pistachio数据集:包含260万化学反应,来自专利数据,涵盖792个反应类别。数据经过去重和有效性过滤(使用RDKit)。
1.2.USPTO 1k TPL数据集:基于USPTO专利数据,包含44.5万反应,通过原子映射和模板提取生成1,000个反应模板类别。
1.3.Schneider 50k数据集:公开数据集,包含5万反应,50个类别,用于与传统指纹方法对比。
2.模型。研究对比了两种Transformer架构:
2.1.BERT分类器:基于编码器的模型,通过掩码语言建模预训练后,在分类任务上微调,使用[CLS]标记的嵌入作为反应指纹(rxnfp)。
2.2.Seq2Seq模型:编码器-解码器结构,将分类任务分解为超类、类别和具体反应的层级预测。两者均采用简化版BERT(隐藏层256维),输入为未标注的SMILES序列,无需反应物-试剂区分或原子映射。
3.训练。模型训练分为两步:
3.1.预训练:BERT通过掩码SMILES令牌预测任务进行自监督学习,学习反应通用表示。
3.2.微调:在分类任务上优化模型,使用交叉熵损失,学习率2×10⁻⁵,序列长度512。评估采用混淆熵(CEN)和马修斯相关系数(MCC)以处理数据不平衡。
培训内容2:
TOP期刊|基于深度学习的生化反应产量预测《Prediction of chemical reaction yields using deep learning》
1.数据。研究使用了三类数据:
1.1.Buchwald-Hartwig HTE数据集:包含3955个Pd催化C-N偶联反应,涵盖15种卤化物、4种配体、3种碱和23种添加剂组合,产率通过统一实验测量,数据质量高。
1.2.Suzuki-Miyaura HTE数据集:包含5760个反应,涉及15对亲电/亲核试剂、12种配体、8种碱和4种溶剂的组合,产率分布均匀。
1.3.USPTO专利数据集:从公开专利中提取,包含不同规模(克级与亚克级)的反应产率,数据噪声大且分布不一致,需通过邻近反应产率平滑处理以提升模型表现。
2.模型。核心模型基于预训练的rxnfp(反应指纹)BERT架构,新增回归层构成Yield-BERT。输入为标准化反应SMILES,通过自注意力机制捕捉反应中心及关键试剂的上下文信息。模型无需手工特征(如DFT计算描述符),直接端到端预测产率。实验表明,其性能优于传统方法(如随机森林和分子指纹拼接),尤其在HTE数据上接近化学描述符的预测水平,且参数鲁棒性高(超参数调整影响小)。
3.训练。训练分为两步:
3.1.预训练:BERT通过掩码语言任务学习SMILES的通用表示。
3.2.微调:采用简单Transformers库和PyTorch框架,以MSE损失优化回归层,学习率(2×10⁻⁵)和dropout率(0.1–0.8)为主要调参对象。HTE数据采用随机/时间划分验证,USPTO数据通过邻近反应产率平滑缓解噪声影响。小样本实验(5%训练数据)显示模型能快速筛选高产反应,指导合成优化。
培训内容3:
TOP期刊|基于T5Chem模型的生化反应表示学习与性质预测: 《Unified Deep Learning Model for Multitask Reaction Predictions with Explanation》
1.数据来源和处理。通过自监督预训练与PubChem分子数据集进行训练,以实现对四种不同类型的化学反应预测任务的优异性能。模型处理包括反应类型分类、正向反应预测、单步逆合成和反应产率预测。
2.模型架构和原理。T5Chem模型是基于自然语言处理中的“Text-to-Text Transfer Transformer”(T5)框架开发的统一深度学习模型,该模型通过适应T5框架来处理多种化学反应预测任务。T5Chem模型包含编码器-解码器结构,并根据任务类型引入了任务特定的提示和不同的输出层,如分子生成头、分类头和回归头,以处理序列到序列的任务、反应类型分类和产品产率预测。
3.训练过程和细节。
3.1.T5Chem模型首先在PubChem的97 million分子上进行自监督预训练,使用BERT类似的“masked language modeling”目标。
3.2.在预训练阶段,源序列中的tokens被随机掩蔽,模型的目标是预测被掩蔽的正确的tokens。
3.3.预训练完成后,模型在下游的监督任务中进行微调,使用不同的任务特定提示和输出层。
3.4.模型在测试阶段通过生成分子token by token的方式进行预测,直到生成“句子结束标记”或达到最大预测长度。
第三天
顶刊复现专题2——蛋白质的表示学习与性质预测助力药物发现
培训背景:在AIDD中,蛋白质是药物作用的主要靶标,其结构与功能的复杂性决定了药物设计的成败。蛋白质的表示学习与性质预测是理解分子-靶点相互作用、发现候选药物的重要环节。蛋白质,尤其是酶,作为药物的主要作用靶点,其功能、结构与动力学性质直接影响药物的设计与效果。本专题通过两篇前沿研究工作展开讲解:*《Enzyme function prediction using contrastive learning》展示了如何利用对比学习从蛋白质序列中提取高质量的功能表征,实现对酶功能的精确预测;《CatPred》*则提出了一个整合性深度学习框架,用于体外酶动力学参数(如Km、kcat等)的预测,这对于建立药效模型与优化先导化合物至关重要。这些方法显著提升了蛋白质建模的准确性与泛化能力,为AI驱动的靶点发现、机制理解及候选药物筛选提供了强有力的支持。
培训内容1:
Nature Communication|体外酶动力学参数深度学习的综合框架《CatPred: a comprehensive framework for deep learning in vitro enzyme kinetic parameters》
CatPred 提出了一种全面的深度学习框架,用于预测体外酶动力学参数(kcat、Km、Ki),以解决实验测定成本高、数据稀疏和泛化能力差的问题。该方法不仅提供了准确的预测,还引入了对预测不确定性的量化,支持对训练集外(out-of-distribution)酶序列的稳健预测。此外,作者还构建了新的标准化数据集(CatPred-DB),并对多种酶表示方法进行了系统比较。
1.数据:CatPred 使用的数据集来自 BRENDA 和 SABIO-RK 数据库,作者构建了 CatPred-DB,包括:23197 条 kcat,41174 条 Km和11929 条 Ki 数据,每条记录都包含酶的氨基酸序列、AlphaFold 或 ESMFold 预测的结构、底物的 SMILES 表达式。数据经过清洗和标准化处理,去除缺失值和重复值,并对参数取对数转换以符合正态分布。
2.模型:CatPred 采用模块化设计,酶和底物分别通过不同的神经网络模块进行表征学习,并采用 概率回归 输出(高斯分布形式的均值和方差),允许进行 不确定性估计(aleatoric + epistemic)。
3.训练
3.1.所有模型采用负对数似然损失函数(NLL)训练,以同时预测参数均值和不确定性。
3.2.使用训练-验证-测试三分法(80%-10%-10%),并设立“训练集外”的测试子集用于泛化能力评估。
3.3.为了评估不确定性,CatPred 使用 10个模型的集成,通过不同初始参数训练,以此量化 epistemic uncertainty。
3.4.模型训练时考虑了不同相似性(序列identity<99%、80%、60%、40%)的测试集,体现其鲁棒性。
培训内容2:
Science|基于对比学习的蛋白质分类属性预测《Enzyme function prediction using contrastive learning》
1.数据来源和处理: CLEAN模型的训练基于UniProt数据库中的高质量数据,该数据库收录了约1.9亿个蛋白质序列。CLEAN模型以氨基酸序列作为输入,输出按可能性排序的酶功能列表(以EC编号为例)。为了验证CLEAN的准确性和鲁棒性,作者进行了广泛的in silico实验,并将CLEAN应用于内部收集的未表征的卤酶数据库(共36个)进行EC编号注释,随后通过案例研究进行体外实验验证。
2.模型架构和原理: CLEAN模型采用了对比学习框架,目标是学习一个酶的嵌入空间,其中欧几里得距离反映了功能相似性。嵌入是指蛋白质序列的数值表示,它由机器可读,同时保留了酶携带的重要特征和信息。在CLEAN的任务中,具有相同EC编号的氨基酸序列具有较小的欧几里得距离,而具有不同EC编号的序列则具有较大的距离。
3.训练过程和细节:
3.1.在训练过程中,CLEAN模型使用对比损失函数进行监督训练,通过优先选择与锚点(anchor)嵌入具有小欧几里得距离的负序列,以提高训练效率。
3.2.模型使用语言模型ESM1b获得的蛋白质表示作为前馈神经网络的输入,输出层产生细化的、功能感知的输入蛋白质嵌入。
3.3.预测时,通过计算查询序列与所有EC编号聚类中心之间的成对距离来预测输入蛋白质的EC编号。
3.4.CLEAN还开发了两种方法来从输出排名中预测自信的EC编号:一种是贪婪方法,另一种是基于P值的方法。
第四天
顶刊复现专题3——基于深度学习的分子生成助力药物发现
培训背景:分子生成是化学、生物学和材料科学等领域的关键技术,对于新药开发、新材料设计和化学反应预测具有重要意义。传统的分子生成方法依赖于专家知识和试错实验,耗时且成本高昂。随着人工智能技术的发展,特别是自然语言处理和扩散模型在分子生成中的应用,我们现在能够利用计算模型来加速这一过程。本课程将介绍从NLP到扩散模型的设计模式,这些模型能够理解和生成分子结构,从而提高分子设计的效率和准确性。通过本课程的学习,参与者将能够掌握分子生成的最新技术和方法,以及如何将这些技术应用于实际问题。
培训内容1:
Nature Communication|基于端到端的图生成框架的分子生成:《Retrosynthesis prediction using an end-to-end graph generative architecture for molecular graph editing》
1.数据来源和处理:Graph2Edits模型使用了公开可用的基准数据集USPTO-50k,包含50016个反应,这些反应被正确地原子映射并分类为10种不同的反应类型。数据集被分为40k、5k、5k的反应用于训练、验证和测试集。
2.模型架构和原理:Graph2Edits模型是一个端到端的图生成架构,基于图神经网络(GNN)预测产品图的编辑序列,并根据预测的编辑序列顺序生成中间体和最终反应物。该模型将半模板方法的两阶段过程(识别反应中心和完成合成子)合并为一锅学习,提高了在复杂反应中的适用性,并使预测结果更易于解释。模型的核心是图编码器和自回归模型,用于生成编辑序列,并应用这些编辑来推断中间体和反应物。
3.训练过程和细节:
3.1.Graph2Edits模型使用有向消息传递神经网络(D-MPNN)作为图编码器,以获取原子表示和全局图特征,并预测原子/键编辑和终止符号。
3.2.模型训练使用教师强制策略,即使用真实的编辑序列作为模型输入。在每个编辑步骤中,模型会计算所有可能的编辑的概率,并选择最高分的k个编辑,将这些编辑应用于输入图以获得k个中间体。
3.3.在生成过程中,如果达到最大步骤数或图表示指示终止,则生成分支将停止。
3.4.最终,根据可能性对前k个编辑序列和图进行排名,收集为最终预测结果。
培训内容2
Nature Computational Science|基于等变扩散模型的分子生成网络《Structure-based drug design with equivariant diffusion models》
1.简单介绍。这篇文献提出了一种基于结构的药物设计方法(SBDD),利用SE(3)-等变扩散模型(DiffSBDD)生成与蛋白质结合口条件匹配的新颖小分子配体。该方法通过将SBDD问题建模为三维条件生成任务,能够一次性生成所有原子位置,克服了传统自回归方法因顺序生成而丢失全局上下文的局限性。DiffSBDD不仅支持从头分子设计,还能通过属性优化、负向设计和分子局部修饰(inpainting)等多种任务灵活应用。
2.数据总结。该研究使用了CrossDocked和Binding MOAD两个数据集进行训练和评估。
2.1.CrossDocked数据集包含40,344个训练蛋白-配体对和130个测试对,验证集规模为246个,确保不同集合中的蛋白质来自不同的酶分类主类以避免过拟合。
2.2.Binding MOAD数据集经过筛选后用于测试,分析限于所有方法均能生成样本的78个CrossDocked和119个Binding MOAD目标。此外,数据集处理涉及移除损坏条目,并通过Zenodo公开提供处理后的数据和采样分子,确保研究可重复性。
3.模型总结。DiffSBDD是一个SE(3)-等变扩散模型,以蛋白质结合口为条件生成三维分子结构,采用3D图表示(原子坐标和类型),避免了传统方法中从密度图回推分子结构的复杂后处理。模型设计尊重三维空间的旋转和平
第五天
顶刊复现专题4: 结合分子动力学的蛋白质-配体复合物相互作用动态预测
培训背景:蛋白质-配体相互作用的预测是现代药物发现和生物工程领域的核心任务之一,其重要性不言而喻。在药物开发过程中,准确预测蛋白质与小分子配体的结合位点、三维结构以及亲和力,不仅能够揭示分子间相互作用的机制,还能显著加速候选药物的筛选与优化,降低研发成本和时间。传统实验方法如X射线晶体学和核磁共振虽然精确,但耗时长、成本高,且难以应对大规模筛选需求。而随着深度学习和人工智能技术的快速发展,计算方法在蛋白质-配体预测中展现出巨大潜力。
研究内容1:
Nature Communication|交互作用感知的蛋白质-配体对接和亲和力预测模型《Interformer: an interaction-aware model for protein-ligand docking and affinity prediction》
1.简要介绍:本研究提出了一种名为Interformer的基于Graph-Transformer架构的统一模型,用于蛋白-配体对接和亲和力预测。针对现有深度学习模型忽略蛋白与配体原子间非共价相互作用建模的不足,Interformer引入了交互感知混合密度网络(MDN)来明确捕捉氢键和疏水相互作用,并结合负采样策略和伪Huber损失函数,通过对比学习优化相互作用分布,提升对接姿势的准确性和亲和力预测的鲁棒性。
2.数据集:研究使用了PDBBind时间分割测试集(333个样本)评估对接准确性,Posebusters基准测试验证物理合理性,以及内部真实世界数据集测试泛化能力。训练数据来源于PDBBind晶体结构数据库。
3.模型:Interformer基于Graph-Transformer架构,包括:(1) 图表示模块,将原子作为节点、邻近关系作为边;(2) 掩码自注意力(MSA)机制,通过Intra-Blocks和Inter-Blocks分别捕捉配体/蛋白内部及两者间的相互作用;(3) 交互感知MDN,融合四种高斯分布模拟常规力、疏水作用和氢键;(4) 边缘输出层整合节点和边特征预测能量;(5) 姿势评分和亲和力模块基于虚拟节点预测正确姿势和实验亲和力值。
4.训练细节:训练分两阶段:首先基于晶体结构训练能量模型生成负样本,随后联合正负样本训练姿势评分和亲和力模型。采用负对数似然损失优化MDN,二元交叉熵损失优化姿势评分,伪Huber损失(σ=4)优化亲和力预测(单位IC50、Kd、KI,经负对数归一化)。蒙特卡洛采样生成候选姿势,
研究内容2:
Nature Communication|分子动力学驱动的蛋白质-配体复合物结构动态预测《DynamicBind: predicting ligand-specific protein-ligand complex structure with a deep equivariant generative model》
1.简单介绍:本研究提出了一种名为DynamicBind的深度学习方法,用于预测配体特异性的蛋白-配体复合物结构。传统分子对接方法通常将蛋白视为刚性或仅部分柔性,难以处理蛋白的大尺度构象变化,而分子动力学模拟虽然能捕捉动态构象,但计算成本高昂。DynamicBind通过等变几何扩散网络构建平滑的能量景观,高效模拟蛋白从无配体(apo)状态到配体结合(holo)状态的构象转变,无需依赖holo结构或大量采样。
2.数据集:研究基于PDBbind2020数据库(19,443个蛋白-配体复合物晶体结构),按时间划分:2019年前的数据用于训练和验证,2019年的数据用于测试。额外构建了Major Drug Targets (MDT)测试集(599对),聚焦激酶、GPCR等主要药物靶点,要求AlphaFold预测结构与晶体结构的pocket RMSD>2Å,确保测试难度。训练中通过AlphaFold预测结构与晶体结构插值生成蛋白部分的样本。
3.模型:DynamicBind是一个基于图神经网络的等变生成模型,使用粗粒化表示(蛋白以Cα节点和侧链二面角表示,配体以重原子节点表示),输出包括蛋白和配体的平移、旋转、扭转角更新,以及结合亲和力和cLDDT置信度评分。模型通过学习从apo到holo的“morph-like”变换,优化能量景观,包含63.67百万参数。
4.训练细节:训练在8块Nvidia A100 80GB GPU上进行5天,输入为添加morph变换的蛋白decoy构象和加高斯噪声的配体构象,目标是去噪操作。损失函数包括八项(配体和蛋白的平移、旋转、扭转等),通过Kabsch算法对齐apo和holo结构,结合扩散噪声调整构象过渡。推理时迭代20次更新初始结构。
课程目标
AIDD人工智能药物发现与设计顶刊复现课程:本次培训主要掌握深度学习在化学反应预测中的应用,应用于真实药物研发场景的思维框架建立从蛋白质建模到下游任务(如药物筛选、作用机制分析)的系统性理解,增强将AI方法应用于实际生物医药问题的能力,自然语言处理(NLP)在分子生成中的应用 ,扩散模型在分子生成中的应用,通过案例分析(如Interformer筛选出高亲和力小分子),学习如何将这些预测技术应用于酶工程和药物发现,加速候选分子的筛选和优化
CADD计算机辅助药物设计
课程目标
Science Technology
CADD计算机辅助药物设计:依据生物化学、酶学、分子生物学以及遗传学等生命科学的研究成果,以计算机化学为基础,通过计算机的模拟、计算和预算药物与受体生物大分子之间的相互作用,考察药物与靶点的结构互补、性质互补等,设计出合理的药物分子。它是设计和优化先导化合物的方法,特别是在食品、生物、化学、医药、植物、疾病方面应泛!靶点的发现与确证是现代新药研发的第一步,也是新药创制过程中的瓶颈之一。
技术方法
分子对接
分子对接的优势:主要包括高效性、经济性和可视化。分子对接是一种利用计算机模拟预测小分子与受体蛋白相互作用的方法,能够在较短时间内筛选大量化合物,找到与受体结合能力较强的分子,从而加速药物研发的进程。相比传统的药物筛选方法,分子对接能够节省大量研发成本,降低实验失败的风险。此外,通过分子对接,研究人员可以直观地观察分子与受体的结合方式,有助于理解药物与靶标之间的相互作用机制
分子对接常用软件:
AutoDock:由Scripps Research Institute开发的免费开源软件,支持刚性和柔性对接。它使用拉马克遗传算法来优化配体在受体结合位点的放置,并包含多种评分函数来评估结合亲和力。支持多种输入文件格式,如PDB、MOL2和SDF
AutoDock Vina:AutoDock的改进版本,具有更高的计算效率和更好的性能。它能够在短时间内找到分子之间的最佳结合方式,广泛应用于药物发现和生物化学研究
Discovery Studio:由Dassault Systèmes BIOVIA开发,包含一系列分子对接、虚拟筛选、蛋白质建模和分子动力学模拟分析工具
本次分子对接培训主要采用AutoDock Vina,完全开源免费。
本次培训主要讲解10种对接方法有:金属酶蛋白对接、蛋白-多糖对接、核酸-小分子对接、柔性对接、共价对接、蛋白-水合对接、蛋白-水分子-配体对接、抗体对接、大分子对接蛋白-多肽对接、大分子蛋白-蛋白对接。
虚拟筛选
虚拟筛选在药物发现中的应用优势主要包括以下几个方面:
高效性和低成本:虚拟筛选通过计算机模拟技术,能够在短时间内对大量分子进行高通量筛选,显著减少了实验筛选所需化合物的数量,从而降低了研发成本和时间。此外,虚拟筛选不需要复杂的实验设备和高昂的实验费用,使得药物研发更加经济高效
缩短研发周期:传统的药物研发方法依赖于大量的实验筛选,过程繁琐且耗时。虚拟筛选能够快速评估和筛选潜在的药物分子,显著缩短了药物研发的周期。统计显示,虚拟筛选的阳性率维持在5%-30%之间,且成功辅助药物设计的案例正逐年增加
提高成功率:虚拟筛选通过计算机模拟和生物数据分析,能够帮助研究人员筛选出潜在的药物候选分子,极大地提高了药物发现的效率和成功率1。此外,结合分子动力学模拟等手段,可以进一步评估药物候选分子的稳定性和体内行为,优化候选分子,从而提高药物的研发成功率
适用于多种药物类型:虚拟筛选不仅可以应用于小分子药物的筛选,还可以在抗体药物、疫苗以及其他生物制品的研发过程中发挥重要作用1。这使得虚拟筛选在生物医药领域的适用范围更广,能够满足不同类型药物研发的需求。
减少实验需求:通过虚拟筛选,可以大幅减少实验筛选的需求,降低实验失败的风险。例如,MCE公司的虚拟筛选服务通过高效的分子对接技术和精准的打分函数,能够大幅减少实验筛选的化合物数量,提高发现理想先导物的可能性
分子动力学模拟
GROMACS在分子动力学模拟中的优势主要包括以下几个方面:
高性能和并行计算能力:GROMACS以其惊人的计算效率而受到青睐,尤其在并行计算和GPU加速方面表现卓越。它能够在大型超级计算机上高效运行
开源和免费:GROMACS遵循LGPL协议,是开源软件,用户可以在Github上找到其开源代码。这使得GROMACS在学术界广泛使用,并且用户可以自由地修改和扩展其功能
广泛的力场支持:GROMACS支持多种力场,包括AMBER、CHARMM、GROMOS和OPLS等,这使得它能够模拟不同类型的分子体系此外,它还支持Martini粗粒化模型和基于GBSA的隐式溶剂模型
丰富的分析工具:GROMACS提供了大量的分析工具,用户不必再为常规分析编写任何程序。它还包括轨迹可视化工具,可以显示模拟结果
良好的用户界面和文档:GROMACS的操作简单,用户可以通过命令行进行操作,且其拓扑文件和参数文件格式友好,易于阅读和设置。此外,GROMACS提供了详细的免费使用手册,帮助用户更好地使用软件
计算机辅助药物设计主讲老师来自国内高校北京协和医院药物研究所,老师主要擅长深度学习、机器学习、药物虚拟筛选、计算机辅助药物设计、人工智能药物发现、分子对接、分子动力学等方面的研究,有十余年的研究经验。
CADD计算机辅助药物设计课表
第一天上午
背景与理论知识以及工具准备
1.PDB数据库的介绍和使用
1.1数据库简介
1.2靶点蛋白的结构查询与选取
1.3靶点蛋白的结构序列下载
1.4靶点蛋白的下载与预处理
1.5批量下载蛋白晶体结构
2.Pymol的介绍与使用
2.1软件基本操作及基本知识介绍
2.2蛋白质-配体相互作用图解
2.3蛋白-配体小分子表面图、静电势表示
2.4蛋白-配体结构叠加与比对
2.5绘制相互作用力
3.notepad的介绍和使用
3.1优势及主要功能介绍
3.2界面和基本操作介绍
3.3插件安装使用
下午
一般的蛋白
-配体分子对接讲解
1.对接的相关理论介绍
1.1分子对接的概念及基本原理
1.2分子对接的基本方法
1.3分子对接的常用软件
1.4分子对接的一般流程
2.常规的蛋白-配体对接
2.1收集受体与配体分子
2.2复合体预构象的处理
2.3准备受体、配体分子
2.4蛋白-配体对接
2.5对接结果的分析
以新冠病毒蛋白主蛋白酶靶点及相关抑制剂为例
第二天
虚拟筛选
1.小分子数据库的介绍与下载
2.相关程序的介绍
2.1 openbabel的介绍和使用
2.2 chemdraw的介绍与使用
3.虚拟筛选的前处理
4.虚拟筛选的流程及实战演示
案例:筛选新冠病毒主蛋白酶抑制剂
5.结果分析与作图
6.药物ADME预测
6.1ADME概念介绍
6.2预测相关网站及软件介绍
6.3预测结果的分析
第三天
拓展对接的使用方法
1.蛋白-蛋白对接
1.1蛋白-蛋白对接的应用场景
1.2相关程序的介绍
1.3目标蛋白的收集以及预处理
1.4使用算例进行运算
1.5关键残基的预设
1.6结果的获取与文件类型
1.7结果的分析
以目前火热的靶点
PD-1/PD-L1等为例。
2.涉及金属酶蛋白的对接
2.1金属酶蛋白-配体的背景介绍
2.2蛋白与配体分子的收集与预处理
2.3金属离子的处理
2.4金属辅酶蛋白-配体的对接
2.5结果分析
以人类法尼基转移酶及其抑制剂为例
3.蛋白-多糖分子对接
4.1蛋白-多糖相互作用
4.2对接处理的要点
4.3蛋白-多糖分子对接的流程
4.4蛋白-多糖分子对接
4.5相关结果分析
以α-糖苷转移酶和多糖分子对接为例
5.核酸-小分子对接
5.1核酸-小分子的应用现状
5.2相关的程序介绍
5.3核酸-小分子的结合种类
5.4核酸-小分子对接
5.5相关结果的分析
以人端粒
g -四链和配体分子对接为例。
操作流程介绍及实战演示
第四天
拓展对接的使用方法
1.柔性对接
1.1柔性对接的使用场景介绍
1.2柔性对接的优势
1.3蛋白-配体的柔性对接
重点:柔性残基的设置方法
1.4相关结果的分析
以周期蛋白依赖性激酶
2(CDK2)与配体1CK为例
2.共价对接
2.1两种共价对接方法的介绍
2.1.1柔性侧链法
2.1.2两点吸引子法
2.2蛋白和配体的收集以及预处理
2.3共价药物分子与靶蛋白的共价对接
2.4结果的对比
以目前火热的新冠共价药物为例。
3.蛋白-水合对接
3.1水合作用在蛋白-配体相互作用中的意义及方法介绍
3.2蛋白和配体的收集以及预处理
3.3对接相关参数的准备
重点:水分子的加入和处理
3.4蛋白-水分子-配体对接
3.5结果分析
以乙酰胆碱结合蛋白
(AChBP)与尼古丁复合物为例
第五天
分子动力学模拟(linux与gromacs使用安装)
1. linux系统的介绍和简单使用
1.1 linux常用命令行
1.2 linux上的常用程序安装
1.3体验:如何在linux上进行虚拟筛选
2.分子动力学的理论介绍
2.1分子动力学模拟的原理
2.2分子动力学模拟的方法及相关程序
2.3相关力场的介绍
3.gromacs使用及介绍
重点:主要命令及参数的介绍
4.origin介绍及使用
第六天
溶剂化分子动力学模拟的执行
1.一般的溶剂化蛋白的处理流程
2.蛋白晶体的准备
3.结构的能量最小化
4.对体系的预平衡
5.无限制的分子动力学模拟
6.分子动力学结果展示与解读
以水中的溶菌酶为例
第七天
蛋白-配体分子动力学模拟的执行
1.蛋白-配体在分子动力学模拟的处理流程
2.蛋白晶体的准备
3.蛋白-配体模拟初始构象的准备
4.配体分子力场拓扑文件的准备
4.1高斯的简要介绍
4.2 ambertool的简要介绍
4.3生成小分子的力场参数文件
5.对复合物体系温度和压力分别限制的预平衡
6.无限制的分子动力学模拟
7.分子动力学结果展示与解读
8.轨迹后处理及分析
以新冠病毒蛋白主蛋白酶靶点及相关抑制剂为例
课程目标
计算机辅助药物设计主要包含:PDB数据库、靶点蛋白、蛋白质-配体、蛋白-配体小分子、蛋白-配体结构、分子对接、蛋白-配体对接、虚拟筛选、蛋白-蛋白对接、蛋白-多糖分子对接、蛋白-水合对接、分子动力学等
CRISPR-Cas9基因编辑技术
课程目标
Science Technology
CRISPR-Cas9基因编辑技术:欢迎来到基因编辑原理与应用课程!本课程旨在为您提供对现代基因编辑技术的全面理解。2012年CRISPR-Cas9的工作原理被解析,2013年华裔科学家张锋首次将CRISPR-Cas9基因编辑技术应用于哺乳动物细胞,正式开启了基因编辑的应用之路,2020年CRISPR技术获得诺贝奖,短短不到十年时间CRISPR技术荣获最高学术荣誉,足以看出该技术的应用潜力。
基因编辑技术被认为是解决世界人口增长带来食物短缺问题的关键,通过基因编辑技术可以大大加速作物品种的创制;此外,临床医疗方面,基因编辑技术为遗传疾病患者的治愈带去了希望。该技术在生命科学领域持续被探索应用,作为一项技术(工具),可以遇见的是在未来生命科学研究中,它将作为基础的手段为科学探索铺平道路。
主讲老师来自中国农业科学院,有十余年基因编辑研究经验,熟悉基因编辑在各个领域应用,在基因编辑系统的开发与优化深耕多年,已发表数十篇SCI,有丰富的教学经验!
CRISPR-Cas9基因编辑课表
一.基因编辑工具介绍
1.正本清源:基因编辑和转基因
a)解析基因编辑与转基因的本质区别,讨论两种技术的监管差异
2.基因编辑工具先驱-ZFNs和TALENs
a)早期基因编辑工具的设计原理、优缺点及历史贡献
3.CRISPR系统家族介绍
a)从细菌免疫系统到基因编辑工具的演变,各类型Cas蛋白的分类
4.CRISPR-Cas9的工作原理
a)sgRNA与DNA结合机制、PAM识别、双链断裂修复途径
5.CRISPR-Cas9介导基因敲除与敲入
a)通过NHEJ和HDR两种修复途径实现的不同编辑效果
6.CRISPR-Cas12、13的工作原理
a)RNA靶向编辑与诊断应用潜力
7.新型CRISPR系统
a)CasΦ、小型Cas蛋白CasMINI等
b)高保真Cas9变体SpCas9-HF、eSpCas9等
8.基因克隆相关技术简介
a)质粒设计、PCR、限制性酶切、连接等基础技术
9.Snapgene软件使用实操
a)质粒图谱设计、引物设计、虚拟克隆与测序分析
1.CRISPR-Cas9系统敲除载体构建实操
a)sgRNA设计相关注意事项
i.PAM位点选择、脱靶预测、GC含量考量、二级结构避免
b)辅助工具推荐,CRISPick、CHOPCHOP、基于深度学习的sgRNA预测工具等
c)常规的构建方案
i.从oligo合成到完整载体的详细流程,常见问题解决
d)测序原理简介
i.Sanger测序与高通量测序技术原理,应用选择
e)测序数据分析
2.多基因编辑原理
a)同时编辑多个基因的策略选择,提高编辑效率的方法
b)多重靶点设计与互相干扰避免策略
3.多基因编辑载体构建实操
a)多sgRNA串联策略
b)多启动子设计策略与表达平衡考量
4.CRISPRa/CRISPRi(基因激活与基因抑制)
a)dCas9-PVPR系统介绍,工作原理详解
b)dCas9-VP64/GI/SAM基因激活系统介绍
c)基因编辑招募系统介绍(Suntag/Moontag)
5.CRISPR系统的‘另类’应用
1.CBE系统的原理及其应用
a)CBE系统进化过程总结,从BE1到最新CBE系统的演进历程与性能提升
b)基因组CBE编辑(植物育种/基因功能研究/临床治疗)
c)细胞器CBE编辑工具介绍,线粒体/叶绿体编辑特殊挑战与解决方案
d)CBE系统的脱靶效应,RNA脱靶与DNA脱靶检测与避免策略
e)新型CBE系统,各种改进版本对比与选择指南
2.ABE系统的原理及其应用
a)PACE和PANCE人工定向蛋白进化系统介绍及其他常规的蛋白进化技术
b)大肠杆菌正交进化系统
c)ABE系统的进化过程总结,ABE1.x到ABE8.x性能参数对比
d)ABE系统的‘另类’应用,ABE系统如何实现C编辑、剪接调控等非常规功能
3.双碱基编辑系统
a)SWISS/STEME/A&C-BEmax/SPACE/ACBE,各种双碱基编辑系统的设计原理与适用场景
b)双碱基编辑系统改造总结
4.其他类型的碱基编辑系统
a)糖基化酶介导碱基编辑,新型编辑机制与应用潜力
b)CGBE、AYBE、gGBE、TSBE

