大数跨境
0
0

Mascot Server3.0正式版已发布,新功能有哪些?

Mascot Server3.0正式版已发布,新功能有哪些? 康昱盛
2024-10-11
1

Mascot Server

新版本划分

Mascot Server 3.0是一个重大版本。从现在起,重大版本由版本号的第一个数字表示。Mascot Server 3.0的补丁版本将使用3.1和3.2等数字;下一个重大版本将是4.0。


利用机器学习优化结果

Mascot Server 3.0附带Percolator,这是一种用于对搜索结果进行重新评分的半监督算法。Mascot Server现在还附带MS2Rescore 3.0,这是根特大学CompOmics实验室开发的“用于AI辅助的肽段鉴定重新评分的模块化、用户友好的平台”。

使用预测的保留时间(DeepLC)和预测的谱图(MS2PIP)

MS2Rescore包含用于保留时间预测的DeepLC和用于预测MS2碎片谱图的 MS2PIP。这两种工具在各种实验中都被证明可以提高数据库搜索结果的灵敏度,尤其是在内源性肽、蛋白质基因组学和宏蛋白质组学研究中表现尤为突出。

启用后,观察到的和预测到的保留时间之间的差异以及观察到的和预测到的离子强度之间的相关性将与核心特征相结合,并用于Percolator重新评分。结果完全集成到Protein Family Summary报告和标准导出格式中。Mascot附带了多个预训练的DeepLC和MS2PIP模型。这些模型安装在本地;不需要联网即可访问MS2Rescore,也不需要GPU。

从头到尾的工作流程

现在,您可以在搜索表单中直接选择使用机器学习进行优化,包括DeepLC 和MS2PIP模型。启用后,Mascot会在数据库搜索结束时自动对结果重新评分。我们对稳健性、速度和日志记录进行了多项改进,以确保流畅的使用体验。当您以mzIdentML、mzTab、Mascot CSV或XML格式导出结果时,搜索表单中的设置将被沿用。

机器学习质量报告

通过新的机器学习质量报告,消除对机器学习结果的猜测。该报告有助于回答以下问题:重新评分是否改善了结果?哪些特征是重要的?预测的保留时间是否准确?我是否选择了正确的谱图预测模型?该报告基于 MS2Rescore提供的图表和图解,适用于任何target-decoy搜索。

用于添加您自己的机器学习集成的适配器接口

Mascot Server包含一个新的适配器接口,用于访问肽段特征预测器。MS2Rescore的集成是通过适配器实现的。该接口可用于任何提供特征预测的工具,并且可以用Mascot Parser支持的任何编程语言(C++、C#、Perl、Python、Java)编写。如果您想为内部工具编写适配器,或者希望我们随Mascot将来的版本一起提供适配器,请联系我们。



更快、更精确的容错搜索

Mascot容错搜索(Error Tolerant Search)是一种二次搜索,可识别未被发现的化学和翻译后修饰以及酶的非特异性。您现在可以将二次搜索限制到特定的修饰类别。例如,仅搜索翻译后修饰,或仅搜索N连接的糖基化。

这样做有两个好处:只搜索Unimod的一个子集可以大大减少第二轮搜索的计算时间;搜索空间越小,显著性阈值越低,在相同的FDR下可以得到更多的匹配结果。



改善整个系统的结果文件性能

Mascot 1.0至2.8版本将搜索结果保存在纯文本(MIME格式)文件中。纯文本对于互操作性来说非常好,但随着数据集的规模和体量不断增加,这种文件格式已经成为性能瓶颈,特别是在交互使用以及后续处理(如Mascot Distiller 中的非标记定量分析)时尤为明显。

新的文件格式:Mascot Search Results(MSR)

Mascot Server 3.0引入了一种新的文件格式,即Mascot Search Results (MSR)。这是一个具有正式架构的独立SQLite数据库。SQLite是一种高度优化的关系数据库,既为Mascot Distiller的未来改进奠定了基础,同时也提升了您在浏览和导出搜索结果时的使用体验。

向下兼容性

系统的每个方面都经过了重新设计,但Mascot Server仍然具有强大的向后兼容性:

  • 查看和导出任何以前版本的Mascot Server的现有结果

  • 提交搜索的程序不受新文件格式的影响

  • 如果您的应用程序或管道需要.dat文件,请以.dat格式导出MSR文件

  • 如果您的应用程序或管道直接从“daily”目录读取.dat文件,则强制 Mascot创建 .dat格式的文件

  • Mascot Server客户端API保持不变-继续支持Mascot Daemon、Mascot Distiller、Thermo Proteome Discoverer等当前版本或旧版本。

  • Mascot Parser已重新设计,用于解析MSR文件-超过95%的API保持不变



Mascot Daemon的改进

Mascot Server 3.0附带新的Mascot Daemon 3.0。

启用机器学习优化。Daemon参数编辑器现在新增了启用机器学习优化的控件,并支持选择DeepLC和MS2PIP模型。

使用容错搜索来搜索Unimod分类的参数。Daemon参数编辑器现在新增了选择修饰分类的控件,与Mascot Server搜索表单相同。

使用Mascot Daemon Export Extender自动生成报告。Mascot Daemon现在附带一个新脚本Mascot Daemon Export Extender (MDXE),它可以自动执行自动化生成Distiller定量报告的步骤。

在Quantitation Summary中报告前3个平均强度蛋白质。除了蛋白质比值外,报告现在可以选择计算任何支持的搜索类型中前3个非标记定量(平均)强度的蛋白质。

支持一步删除多个任务。删除Daemon任务列表中的任务时,现在可以选择一个范围并一次性删除。

在Windows 11系统上,Distiller Daemon Toolbox Processor组支持峰值选取。当处理器拥有超过64个逻辑核心时,Windows会将它们分成两个处理器组。以前,Daemon仅限于一个处理器组。在具有48个物理核心(96个逻辑核心)的系统上,Daemon仅使用一半的处理器(48个逻辑核心)。新版Daemon现在可以使用100%的处理器。



默认设置更改

本次版本更新中,多个配置的默认设置有所改变。我们进行了这些更改,以简化用户体验,并减少您在获得最佳结果时需要做出的选择。

自动target-decoy搜索现在是默认设置。“Decoy”复选框已从搜索表单中隐藏。现在,除光谱库搜索和完整交联搜索外,所有结果报告都会默认显示肽段和蛋白质的FDR(假发现率)。您可以通过 AlwaysEnableAutoDecoySearch配置选项更改此默认设置。

序列FDR现在是默认选项。当您选择目标FDR时,之前的Mascot版本默认使用的是PSM FDR(肽段谱图匹配假发现率)。Mascot Server 3.0现在默认使用序列FDR。您可以在Protein Family Summary(蛋白质家族总结)格式控制和导出结果时更改FDR类型。我们建议除了最小的数据集外,都使用序列FDR。

SplitNumberOfQueries现在的默认值是2000。将 SplitNumberOfQueries的值从1000增加到2000,使得大多数系统的数据库搜索时间缩短了10-15%,而RAM的使用量只略微增加。如果您的 Mascot Server计算机的RAM小于4GB,您应恢复旧的默认值——不过我们建议您升级计算机并增加内存。



移除过时的功能

Select Summary和Peptide Summary已过时这些报告是由 master_results.pl为MS/MS搜索生成的。我们鼓励所有用户使用Protein Family Summary(蛋白质家族总结)报告,它能够更准确地展示您的数据,并支持机器学习优化。虽然在Mascot Server 3.0中,Select Summary和Peptide Summary报告仍然可用,但将在未来的版本中移除。

config/mod_file已过时。该文件是自动从unimod.xml创建的,用于支持旧版客户端程序。Mascot Server 3.0默认不再创建该文件。在过渡期间,可以通过配置选项重新启用该功能。不过该功能将在Mascot Server 4.0中永久移除。

搜索表单中不再显示过时的文件格式选项。旧版文件格式(如Micromass PKL或Sciex API III)仍受支持,但默认隐藏。关于肽段电荷和母离子m/z 的过时搜索表单控件现在也被隐藏。新的配置选项SearchSubmitAcceptedFileTypes默认为MGF和mzML。

搜索表单中已移除Monoisotopic/Average mass的选项。所有现代数据分析软件都使用单同位素质量保存峰列表。

导出表单中已移除过时的导出格式。以前的Mascot版本可以将结果导出为 DTASelect v1.9和pepXML v1.8格式。这些非常老旧的文件版本不支持过去十年中添加到Mascot的新功能。您仍然可以通过命令行参数 export_dat_2.pl来选择它们。DTASelect和pepXML支持将在Mascot Server 4.0中永久移除。

已停止支持Windows Vista、7、8、Server 2008、Server 2008 R2和 Server 2012。Mascot Server 3.0在Windows系统上要求Windows 8.1 或更新版本,或者Windows Server 2012 R2或更新版本。我们推荐使用 Windows 11或Server 2022。

已停止支持glibc 2.5。Mascot Server 3.0在Linux系统上要求glibc 2.17 或更新版本,您需要使用2014年后发布的Linux发行版。Mascot在Linux上没有其他系统依赖。我们推荐使用最新版本的AlmaLinux、CentOS、Rocky Linux、Debian或Ubuntu。



其他改进

用户文档的重大更新。Mascot HTML帮助中的几乎每一页都经过了审核。新增了数十页新的帮助页面和教程,涵盖了多肽和蛋白质鉴定与定量的各个方面。完整的用户文档随Mascot一起提供,可在我们的网站上免费获取。

Peptide View现在注释所有片段。移除了用于选择“fragments used for scoring”和“all fragments”的单选按钮。Mascot用于匹配和评分的片段以红色显示,其他片段(通常峰值强度较低)以蓝色显示。

减少了许多Windows系统上的“query prep time”。在大多数Windows 系统上,解析大型MGF文件所需的时间减少了3-4倍。这是在数据库搜索正常开始之前在“0%”完成的步骤。

Perl已更新至5.38版。所有Perl模块和支持库都已更新至最新版本。Database Manager新增了TLSv1.3支持。在Windows上,由于文件锁定延迟减少,Database Manager页面现在加载速度更快。

改善了交互式报告中Javascript的速度。在“Protein Family Summary”中单击展开和折叠内容现在更流畅。Javascript代码已改用高性能的querySelector()API。




Mascot Server

如果想要了解更多Mascot软件详情,欢迎进入我们的官方网站或直接联系我们。

Tel: 021-54975000

E-mail: support@cloudscientific.com‍

Web: www.cloudscientific.com
 往期回顾 

【Mascot Newsletter 2024-07】免费提供用于Mascot迁移的临时License

【Mascot Newsletter 2024-08】容错序列标签练习

【Mascot Newsletter 2024-09】容错序列标签练习


关注康昱盛官方账号,查看更多精彩内容


更所

点击“阅读原文”咨询订购&申请试用~

【声明】内容源于网络
0
0
康昱盛
生物医药领域信息解决方案供应商:分子模拟、药物设计、基因组学、蛋白组学、生物信号通路分析、电子实验记录本、信息管理系统
内容 126
粉丝 0
康昱盛 生物医药领域信息解决方案供应商:分子模拟、药物设计、基因组学、蛋白组学、生物信号通路分析、电子实验记录本、信息管理系统
总阅读0
粉丝0
内容126