【Using Mascot系列文章】这些参数都是什么意思？- 大数跨境

首页

【Using Mascot系列文章】这些参数都是什么意思？

康昱盛

2023-02-13

导读：本期详细跟大家介绍一下，Mascot中每个搜库参数的含义以及推荐设置。

在提交搜库之前，我们通常都要根据数据特点设置适合的参数以达到最佳的分析目的，从而得到相对来说最准确的搜库结果。本期就详细跟大家介绍一下，Mascot中每个搜库参数的含义以及推荐设置。

Your name & Email

在免费的Mascot Server（https://www.matrixscience.com/search_form_select.html）上，必须输入您的姓名和电子邮件地址，此信息仅用于通过电子邮件返回搜库结果，我们不会使用此信息向您发送骚扰或垃圾邮件。搜库结束后，结果链接将发送到您提供的邮箱中，点击即可查看。为了避免每次提交分析时需要重复输入，建议接受浏览器将其保存为本地“cookie”。

对于用户已购买的本地Mascot Server，这些字段可以选择性填写。

Search Title

显示在Search Result页面顶端的任务信息，可填可不填。

Database

选中目标数据库，点击“＜”添加到参数列表中，数据库支持氨基酸序列（AA）、核酸序列（NA）或谱图库，同种类型的库每次可选择多个合并检索。

Taxonomy

Taxonomy将搜索限制在来自特定物种的条目中，可以加快搜索速度，并确保鉴定列表仅包含所选条目的物种。

All entries ：显然，该选项不对物种单元进行筛选，如果选择的数据库是全物种库，将对所有序列进行检索。如果明确研究物种，选择下列对应的条目即可，如Homo Sapiens (human)等。

unclassified：未包含在已有分类下的物种。NCBIprot 数据库中大约有 50,000 个这样的序列。

Species information unavailable：Mascot 无法从数据库中提取分类信息的条目。条目中可能存在分类信息，但 Mascot 无法识别。因此，如果用All entries或其他更具选择性的分类均为得到检索结果，那再用Species information unavailable重复搜索可以作为一个选择。

Enzyme & Missed Cleavages

根据实际实验条件进行选择酶，最大漏切位点：特异性酶切最大不建议超过2。

不过当您研究的是内源性多肽时，您只能选择Enzyme为None搜索所有可能的酶切，意思是任何氨基酸均可能断裂。

但是，当您进行Top-down研究完整蛋白时，要选择NoCleave方式。注意NoCleave是完全不进行酶切分析，和None完全相反。

Quantitation

支持标记定量和非标记定量，非标记定量及MS1定量必须使用Mascot Distiller（[MD]结尾的均表示需要联用Mascot Distiller）。

Crosslinking

支持二硫键等天然交联，以及人工添加的交联试剂用于表征蛋白三级结构、蛋白复杂拓扑结构、蛋白构象变化、蛋白间互作等。可自定义交联剂和交联方法，详细介绍与案例数据参见：http://192.168.26.144/mascot/help/crosslink.html。

Monoisotopic or Average

定义实验质量值是单同位素还是平均值。如果您不确定选择哪个，请参阅Accuracy&resolution（http://192.168.26.144/mascot/help/mass_accuracy_help.html）帮助页面。

Modifications

固定修饰普遍适用于指定残基或末端。增加固定修饰的数量不会影响搜索时间。

可变修饰是指某个修饰在指定残基上是随机出现的。Mascot 测试所有可能的可变修饰以找到最佳匹配。例如，如果选择Oxidation (M)，并且该肽段包含 3 个蛋氨酸，Mascot 将测试实验数据中分别包含 0、1、2 或 3 个氧化蛋氨酸残基的肽段匹配。

可变修饰是寻找未知匹配的一种非常有效的方法，但也需要注意：即使设置一个可变修饰也会产生许多额外肽段进行测试，每多设置一个可变修饰，就会导致排列的数量呈几何增长。不仅搜索时间更长，更重要的是，search space越大，产生的随机匹配就越多，从而准确性也会下降。

可变修饰不建议一次性设置数量过多，Mascot 最多允许指定 9 个，但在大多数情况下，更好的方法是使用最多3个比较明确的可变修饰进行第一轮检索，然后进行第二轮容错搜索（Error Tolerant Search），以鉴定更多未知的修饰和突变信息。

如果设定的固定修饰与实际化学结构不一致，将生成一条Error消息。

Precursor

有些数据文件，如SCIEX API III、PerSeptive (.PKS) 和 Bruker (.XML) 不包含母离子的 m/z 信息。仅对于这些格式的数据，Precursor字段用于指定母离子的 m/z 值，电荷数可在Peptide Charge字段中设置。

Peptide tol. ± & MS/MS tol. ±

设置一级谱和二级谱的质量容差范围，单位可选mmu，ppm或者Da。具体数据与质谱质量分析器的类型有关，推荐设置如下。

质量误差推荐设置

# 13C

Mascot会自动去寻找可能错误分配的13C和13C2的谱峰：

● 首先对母离子进行匹配TOL > absolute(exp - calc) Da；

● 如果该参数设为1，Mascot会进一步搜索TOL > absolute(exp - calc - 1) Da 范围内可能的母离子匹配；

● 如果设为2，那么会继续搜索 TOL > absolute(exp - calc - 2) Da 内的母离子。

Peptide charge

如果peak list中只包含m/z，不包含明确的母离子电荷信息，则需要在此指定，以用于计算肽段的分子量。"1+" 通常指MH+, "1-" 指M-H-, "2+" 指MH2++, 以此类推。但现在一般mgf文件中会提供电荷信息，因此不需特别指定。

Data file & Data format

点击上传本地peak list，每次只能上传1个文件，推荐的文件格式为MGF。

Instrument

对于MS/MS Ion Search，需要指定待分析的数据所属的仪器类型，因为不同的仪器产生的碎片离子不同，从而影响打分的计算。

Decoy & Target PSM FDR

对于组学数据，勾选Decoy进行FDR计算是非常必要的，因为我们无法计算混合样本中蛋白的真阳性，只能通过计算错误发现率来比较成百上千个蛋白匹配的相对准确度。如果选择no target，则报告默认导出FDR小于0.05的蛋白。如果同时勾选了Error Tolerant，则设定的FDR在第一轮和第二轮检索结果中分别计算，因为显著性显然是差别很大的。

💡 Tips

以上参数是常规搜库需要特别注意的，还有一些后台参数一般不建议用户自行修改，如果您对此感兴趣的话，可以详细参照以下Help页面的Embedded Search Parameters部分：https://www.matrixscience.com/help/data_file_help.html#PARAMS。

如果您想要了解更多Mascot软件详情，欢迎点击文末“阅读原文”进入康昱盛官方网站或直接联系我们。

Tel: 021-54975000

E-mail: support@cloudscientific.com‍

— 往期回顾 —

讲座报名 | MOEsaic：基于网页端的SAR分析平台