大数跨境
0
0

超实用Modeller同源建模教程

超实用Modeller同源建模教程 魔德科技
2021-07-20
0
导读:Modeller是一款比较优秀的同源建模软件,包括单模板和多模板建模,著名DiscoveryStudio软件

Modeller是一款比较优秀的同源建模软件,包括单模板和多模板建模,著名DiscoveryStudio软件中就是采用的Modeller建模模块。Modeller目前最新的版本是10.1。本教程为Windows下Modeller同源建模具体操作,图文详实,包会~


软件安装


官网下载并申请学术license,也可用文末方式通过本号获取带有学术license的安装包,以及本教程所有脚本文件(推荐)。本教程脚本均来源于官网,并未修改任何语法,只是修改了脚本中对应的的文件名称。下面会详细说明。

安装好后打开在Windows菜单栏中双击Modeller图标打开,如下所示


同源建模


一、只有序列的同源建模 

如果你只有一条目标蛋白的氨基酸序列(Fasta格式),想要直接通过Modeller找最合适的模板建模,体操作如下: 

1


新建工作目录Modeller,将Script中的所有文件复制到其中

2



将FASTA格式文件转换为ALI格式文件。可以通过Uniprot数据库查询并下载目标序列的氨基酸FASTA文件,然后仅仅将序列部分复制,更改myseq.ali文件中除了第一行、第二行和最后的星号外的其余内容,注意不要删除星号。Ali格式文件如下

第一行为序列代码,注意不要更改,这个代码和后面所有python脚本保存一致;第二行为序列名称,myseq,以及结构信息,也不要更改;最后的星号*是为了告诉Modeller程序序列到此结束。只需要删除原来文件的氨基酸序列,替换为自己目标序列保存即可,文件名myseq.ali不用更改。

3



通过目标序列搜索与其相关的结构信息。


3.1 首先在在Modeller窗口中找到新建的Modeller工作目录文件夹,操作和windows命令类似,比如Modeller路径为D:\Desktop\Modeller,在Modeller的黑框框中输入 

cd   /D  D:\Desktop\Modeller

3.2 进入目录,使用dir命令检测该目录下存在哪些文件


3.3 利用build_profile函数在pdb数据库中找目标序列相关的结构信息,因此需用用到名为pdb_95.pir的数据库信息文件。具体操作很简单,只需要键入如下命令:

mod10.1  build_profile.py

运行完毕检测是否有名为build_profile.log的文件,该文件为Modeller在PDB数据库中搜索到的和目标序列相关的晶体结构的运行日志文件。运行成功还会生产一个名为build_profile.prf的文件,该文件中最为重要的是第二列:PDB编号,编号为5个字符,最后一个字符表示PDB结构的具体链为,这里多为A链;第十一列:对应pdb结构与目标序列的同源性;第十二列:同源性的显著性,e-value为0时表明相似性最好。


通过搜索Modeller为我们推荐了一些建模的模板,也就是那些e-value为0,且相似性>30的结构,根据第二列的PDB编号,下载晶体结构,作为模板,这里可以选择多个PDB结构作为模板,可以是1个,也可以是6个,甚至更多,这一步需要通过PDB编号去PDB数据检查模板的晶体质量如何,一般解析精度值越低,作为模板的可靠性越高。

 

本教程选择6个模板进行比较分析,找到最优模板。读者可以根据自己的情况选择更少或更多的模板进行比较,主要根据相似性第十一列和显著性第十二列来选择。我们选PDB编号为1qcf、1fgk、1byg、1opj、1fvr、1ir3进行比较。因此修改compare.py脚本的相应部分;


4


在PDB数据库中获取这些模板的晶体:



5


然后通过命令进行模板比较:

mod10.1  cmpare.py

 运行完毕检测compare.log文件,最后有比较信息如下:

Sequence identity comparison (ID_TABLE):
Diagonal ... number of residues; Upper triangle ... number of identical residues; Lower triangle ... % sequence identity, id/min(length).
1qcfA @21fgkA @21bygA @21opjA @11fvrA @21ir3A @11qcfA @2 449 90 92 95 79 751fgkA @2 32 278 94 98 105 911bygA @2 37 38 246 98 88 791opjA @1 33 35 40 287 90 911fvrA @2 26 38 36 31 299 831ir3A @1 25 33 32 32 28 300

Weighted pair-group average clustering based on a distance matrix:

.----------------------------- 1qcfA @2.0 65.0000| | .--- 1bygA @2.4 60.0000| | .--------------------------------------------- 1opjA @1.8 68.0000| | .------------- 1fgkA @2.0 62.0000| | .---------------------------------------------------------- 1fvrA @2.2 70.5000| .------------------------------------------------------------ 1ir3A @1.9
+----+----+----+----+----+----+----+----+----+----+----+----+ 70.9200 69.0300 67.1400 65.2500 63.3600 61.4700 59.5800 69.9750 68.0850 66.1950 64.3050 62.4150 60.5250
Total CPU time [seconds]                                 :       0.50

根据该信息可知1ir3具有最好的解析精度为1.9埃(@符号后为精度),而且与目标序列的同源性为45%,故而选择他作为模板进行后续建模。 


6


模板序列与目标序列的比对 

键入如下命令: 

mod10.1  align2d.py

注意align2d.py中需要制定对比的模板的pdb编号,将对应的模板编号修改为选定的模板编号1ir3,其余保持不变。


比对好后,利用选定的模板进行建模,修改model-singel.py中对应的编号为模板编号。

脚本中第12行指定输出建个数,这里指定的5个建模数量,可以自定义。


7



键入如下命令开始建模: 

mod10.1  model-single.py

 完成后目录下多了5个pdb文件,即为建模结果


打开model-single.log文件,最后面是建模评分

<< end ofENERGY.
>> Summaryof successfully produced models:Filename molpdf DOPE score GA341 score----------------------------------------------------------------------myseq.B99990001.pdb 5982.11816 -47075.75781 0.19636myseq.B99990002.pdb 5533.12451 -45785.35938 0.59011myseq.B99990003.pdb 5127.30176 -46667.22266 0.31664myseq.B99990004.pdb 5651.52100 -44487.33594 0.31029myseq.B99990005.pdb 5674.77441 -45456.64453 0.36471
Total CPU time[seconds] : 254.36

可以根最低的DOPE score和最高的GA341 score选择最优模型,也可以将所有结果上传到PROCHECK服务器验证模型可靠性。


8



然后利用evaluate_model.py和plot_profiles.py脚本评估模型与模板的质量。语法同上。


二 有模板建模

跳过3、4、5步骤,直接用模板进行1、6、7操作就行啦~


安装包获取方式


获取Modeller10.1安装包(windows&Linux)、学术license和本教程python脚本方式:


微信回复M10

【声明】内容源于网络
0
0
魔德科技
魔德科技目前主要提供从生物分子模拟、化学反应机理到物理材料性能模拟的全程专业技术服务,让您的研究内容更加完善,研究结果更富有影响力。公司的定制化工作站能满足分子模拟、虚拟筛选、材料研究、药物研发等方面的需求。
内容 65
粉丝 0
魔德科技 魔德科技目前主要提供从生物分子模拟、化学反应机理到物理材料性能模拟的全程专业技术服务,让您的研究内容更加完善,研究结果更富有影响力。公司的定制化工作站能满足分子模拟、虚拟筛选、材料研究、药物研发等方面的需求。
总阅读25
粉丝0
内容65