大数跨境
0
0

进化树作图神器-MEGA

进化树作图神器-MEGA 百易汇能
2022-06-23
0
导读:干货|MEGA 构建系统进化树实操

MEGA(Molecular Evolutionary Genetics Analysis,分子进化遗传分析),可用于序列比对、进化树构建、估计分子进化速度、验证进化假说等用途。

MEGA-X 支持在Windows、MacOS以及Linux 系统下运行,有图形界面和命令行两个版本可供选择,支持64 位和32 位,与之前的版本比较,MEGA-X 最大的特点是大数据运算能力增强,并且支持多种计算平台。接下来,小编给大家实操一下 MEGA 构建系统进化树的流程。

01 软件下载

MEGA软件支持在官网(Home (megasoftware.net))上免费下载,有兴趣的小伙伴可以直接在官网下载。

02 数据准备

准备 fasta 格式序列文件(fasta 格式:大于号>后紧跟序列名,换行后是序列)把所有序列放在同一 fasta 文件内,注意:所有序列的方向都要是5’ – 3’。

03 序列比对

在软件首页选择DATA,点击Open a File/Session,选择准备好的文件。

打开文件时询问「Analyze or Align File?」,此处点击Align。

当然,我们也可以在文件处直接点击右键,选择打开方式,使用MEGA直接打开。

MEGA中有两种序列比对方法:Muscle和ClustalW。

ClustalW的基本原理是首先做序列的两两比对,根据该两两比对计算两两距离矩阵,是一种经典的比对方法,使用范围也比较广泛。

 Muscle的功能仅限于多序列比对,它的最大优势是速度,比ClustalW的速度快几个数量级,而且序列数越多速度的差别越大。方法可以通过点击图中上方Alignment或者下方的图标「W」和「Muscle」来选择。如果你的序列是DNA编码序列就一定要选择Align Codons,因为序列通过密码子比对比DNA序列的比对会更加真实,避免间隙对比对结果产生的影响。MEGA可以比较方便快速地将密码子排列比对,后续作为输入文件在软件PAML或DATAMONKEY中进行进化压力的分析时就会比较方便。

在这里我们选择Muscle进行序列排列,点击Align DNA,会出现一些参数选项,根据自己需要进行修改,在这里直接点击OK选择默认参数即可。

对齐过程需要一段时间,对齐完成后,最好将序列两端切齐,选择两端不齐的部分,单击右键,选择 delete 即可。

有的差异很大的或许是因为序列方向反了,这个时候要把它反转回来,右击这条序列,点击Reverse Complement,反转后一定要再次点击Muscle比对,检查是否大部分都对齐了。

此时可以将比对好的文件导出,选择需要保存的格式即可。

04 进化树构建

进行系统发育分析时直接点击Data中的Phylogenetic Analysis即可。

分析后返回主页面,接下来我们要选择一个最优的模型,提高建树的精确度。如果想要快速建树可以省去这一步,直接选择默认的模型。点击MODELS中的Find Best DNA/Protein Models(ML) 软件就会根据你的数据帮你计算寻找最适合的模型。

运行一段时间后会计算出最适合的模型,模型选好后,就可以点击PHYLOGENY进行方法的选择了。

构建系统发育树有三种主要的建树方法,分别是距离法、最大节约法(maximumparsimony, MP)和最大似然法(maximum likelihood,ML)。

最大似然法:考察数据组中序列的多重比对结果,优化出拥有一定拓扑结构和树枝长度的进化树,这个进化树能够以最大的概率导致考察的多重比对结果;

距离法:考察数据组中所有序列的两两比对结果,通过序列两两之间的差异决定进化树的拓扑结构和树枝长度,基于距离的方法有UPGMA、ME(Minimum Evolution,最小进化法)和NJ(Neighbor-Joining,邻接法)等;

最大节约法:考察数据组中序列的多重比对结果,优化出的进化树能够利用最少的离散步骤去解释多重比对中的碱基差异。

在这些方法中,如果模型合适,ML的效果较好。对于近缘序列,有人喜欢MP,因为用到的假设最少,远缘序列上一般用NJ或者ML,这两个方法都是需要选择模型的。对于相似性很低的序列,NJ往往出现Long-branch attraction(LBA,长枝吸引现象),这种现象有时候会严重干扰进化树的构建。其实当序列的相似性比较高时,各种方法都会得到不错的结果,模型之间的差别也不是很大。所以平时我们一般推荐用两种不同的方法进行建树,如果得到的进化树类似,则结果较为可靠。这里我们先选择Neighbor-Joining法建树。

点击方法后,选择自展值,即重复建树以进行检验的次数,一般选择1000以上才比较可靠。模型选择之前计算好的最优的模型,点击OK。

运算时间与数据量有关,运算结束后进化树就生成了(由于小编的数据序列比较大,不是特别美观,各位读者多担待)。

接下来我们可以根据自己的审美对进化树进行修改,下面工具栏里的选项还可以对字体和线条粗线长短等进行修改,并且将想要突出的菌株和分枝信息进行重点标注,大家可以根据自己的需要来调整,在这里还可以点击树形图标将进化树修改成为圆圈型和松针型。

构建的进化树可以导出多种格式文件MPSVG (矢量图,可进一步通过绘图软件如AI编辑)、PDFPNGTIFF (位图)

记得将进化树的文本文件也保存一下。点击File中的Export Current Tree(Newick)保存Newick格式。导出的树文件便于之后在iTOLEvolviewFigtree等工具中进行更进一步的美化,比如添加分类颜色、标记以及热图和条形图等。

当然,MEGA软件的功能肯定不仅仅局限于此,想学习更多酷炫技能的话,小伙伴们就得私下自己学习喽,也希望大家能与小编多多交流。

学习更多知识请关注“百易汇能”,更多干货持续推送。欢迎投稿分享!

END

百易汇能生物——提供专业、高效的高通量测序及多组学分析服务

百易汇能生物引进了高通量测序平台、10x单细胞平台、质谱平台以及华为超算平台。

专注于高通量测序技术在医学健康和生命科学领域的应用,提供国内领先的基因及多组学测序服务。

咨询电话:027-63497508
邮箱:market@bioyigene.com
网址:http://bioyigene.com/
公司地址:武汉东湖新技术开发区高新大道888号高农生物园总部B区20栋5层

百易汇能生物

武汉百易汇能生物科技有限公司坐落于武汉光谷高农生物园总部,是一家专注于第二代、第三代测序技术在人类健康和生命科学研究两大领域应用的高新技术企业。公司现有软件著作60余项,发明专利6项;公司成立以来累计参与发表文章170余篇,其中包括Cell,Nature Genetics,PNAS,Food Chemistry等各领域顶级期刊。

【声明】内容源于网络
0
0
百易汇能
百易汇能生物拥有二代测序平台、质谱平台及单细胞平台。为客户提供专业、高效的单细胞、基因组、转录组、微生物组、蛋白组、代谢组等服务。专注于高通量测序技术在医学健康和生命科学领域的应用,提供国内领先的基因测序服务。
内容 246
粉丝 0
百易汇能 百易汇能生物拥有二代测序平台、质谱平台及单细胞平台。为客户提供专业、高效的单细胞、基因组、转录组、微生物组、蛋白组、代谢组等服务。专注于高通量测序技术在医学健康和生命科学领域的应用,提供国内领先的基因测序服务。
总阅读60
粉丝0
内容246