大数跨境

转录组挖掘SSR分子标记

转录组挖掘SSR分子标记 中科生信
2021-10-23
1
导读:小伙伴们又见面啦,大家周末happy呀。今天小编跟大家分享一篇利用转录组数据挖掘微卫星分子标记的文献。期刊:

小伙伴们又见面啦,大家周末happy呀。今天小编跟大家分享一篇利用转录组数据挖掘微卫星分子标记的文献。期刊:Scientific RepoRts;题目:Discovery of novel genic-ssR markers from transcriptome dataset of an important non-human primate, Macaca fascicularis。

摘要

    食蟹猴(Macaca fascicularis)是一种重要的动物模型,常用于生物医学研究。它是一种古老的灵长类动物,广泛分布在东南亚,是马来西亚最丰富的猴类物种之一。然而,马来西亚野生食蟹猴种群的遗传结构尚未完全阐明。本文通过RNA测序,从马来西亚食蟹猴的转录组数据集中开发了基因简单序列重复(gene-simple sequence repeat, gene - ssr)标记,并将这些标记应用于26个食蟹猕猴个体。共鉴定出14751个gene-ssrs,其中13709个为完美SSRs。SSRs重复基序以二核苷酸重复最多,频率为65.05%,其次为三核苷酸重复,频率为20.55%。随后,研究人员基于二、三核苷酸SSRs设计了300对引物,其中105对SSRs与功能基因相关。随机抽取30个SSR标记进行验证,得到19个多态性标记,平均多态性信息含量为0.431。本研究中基因组ssr标记的开发,为食蟹猴及其他相关非人类灵长类动物的功能和种群遗传学研究提供了有用的分子标记。

方法路线

数据集来源

转录组数据集来源于之前的对食蟹猴在肝脏、肾脏、淋巴结、脾脏和胸腺上的RNA测序项目。


从头组装和功能注释

使用FASTQC对原始测序reads进行质量评估;对Illumina共测序阳性对照(PhiX)序列进行筛选,清洗后的序列reads进行基础质量检查(q30);使用CLC Genomics Workbench版本8.5.1 (CLC Bio-Qiagen, Aarhus, Denmark)进行从头序列组装;利用Blastn对NCBI RefSeq数据库中M. fascularis (GCF_000364345.1) RNA序列构建的数据库进行BLAST+ version 2.2.31+43序列相似性搜索,对组装的contigs(平均覆盖10 reads)进行注释。


gSSRs的鉴定和分类

利用MIcroSAtellite identification tool (MISA)44对筛选后的contigs(平均覆盖10 reads)进行gssr鉴定和分类。二、三、四、五、六核苷酸的最小重复数分别为6、5、5、4和4。perfect、compound和complex SSRs的分类如下:perfect是由n个单位的单一重复组成;compound由两个或多个n个单位的交替串联重复序列组成;复合体由单个单元的重复序列组成。


引物设计

从转录组数据集中鉴定的包含SSRs的Contig序列使用Primer3软件开发引物。我们选择重复数为10的完美二核苷酸和三核苷酸为候选SSR序列,每个contig中只有一个SSR,进行引物设计。所有引物设计所用的contig序列都与基因组序列进行比对,以预测内含子的位置。设计了300对SSR引物。所有用于SSR引物设计的contigs进行功能注释。


实验验证

从设计的300对ssr引物中随机选取30对,对26个食蟹猴个体的DNA样本进行初步筛选。对样本DNA进行提取,利用设计的引物分别对个体的DNA序列进行PCR扩增,选择电泳条带清晰明亮、大小在合理长度的引物。为了进一步确认扩增产物中是否存在靶向SSRs,通过对预期片段大小的PCR产物进行测序,并将获得的序列与设计引物的contig序列进行比较,并鉴定了目标SSR重复序列。

遗传多样性分析

利用PopGene version 和Cervus version 3.0.7计算无效等位基因、观测杂合度、期望杂合度、fixation index (FST)和多态性信息含量(PIC)等遗传参数。

结果

从头组装和功能注释

最小和最大contig长度分别为178 bp和21411 bp,在生成的contigs中,356560个(~60%)平均覆盖10个以上的reads,注释显示73880个(~21%)与功能基因相关的contigs。在73880个注释的contigs中,有67399个contigs与M. fascularis (GCF 000364345.1) RNA序列匹配。随后对M. mulatta (GCF 000772875.2)、Homo sapiens (GRCH38)和SwissProt数据库进行蛋白序列相似性搜索,分别注释1461、742和4278 contigs。


gSSRs的鉴定和分类

在共鉴定的基因-ssrs中,perfect重复13,709个(92.94%);而complex and compound重复构成了剩余的7.07%。perfect SSRs中,双核苷重复最丰富(8918;65.05%),其次是三(2817;20.55%),四(1062;7.75%)、五(767;6 - (145;1.06%)核苷酸重复。在获取的数据集中,二核苷酸和三核苷酸重复构成了最大的重复基序,这与其他动物物种(如人、鸡和鱼)的结果一致。

引物开发和筛选

在本研究用于引物设计的300个SSR位点中,有105个位点与涉及特定生物学过程、细胞组分和分子功能的基因相关。在30个SSR标记中,有20个标记(66.67%)在所有样品中都能重复扩增出预期大小的清晰标记。20个标记中有19个多态性,表明本研究筛选的30个标记中有19个标记具有60%以上的多态性。将PCR扩增得到的序列与设计引物所用的contig序列进行比对,也验证了目标DNA区域的成功扩增。

以上就是小编对这篇文献的分享,如果想学习生信分析内容或有项目需要合作的话,欢迎长按识别下方二维码联系我们!

ZKSX

微信号|中科生信

新浪微博|@中科生信


【声明】内容源于网络
0
0
中科生信
中科生信是一家专业从事生物技术服务的公司,提供生物医学领域的定制化数据分析服务。公司业务有:二代测序平台、数据库搭建技术、测序个性化分析平台、以及生信分析定制化服务!致力于为客户提供“一站式”科研服务。
内容 580
粉丝 0
中科生信 中科生信是一家专业从事生物技术服务的公司,提供生物医学领域的定制化数据分析服务。公司业务有:二代测序平台、数据库搭建技术、测序个性化分析平台、以及生信分析定制化服务!致力于为客户提供“一站式”科研服务。
总阅读1.7k
粉丝0
内容580