SPRING FESTIVAL
点击蓝字 关注我们
在生物信息学研究中,发表文章之前常常被要求将测序数据上传到公共数据库,以便数据共享和研究复现。NCBI的Sequence Read Archive (SRA)是最广泛使用的数据存储库之一。然而测序数据通常内存巨大,利用传统的HTTP或FTP方法上传往往效率低下,且操作繁琐。而近期小编协助了一些客户完成了Guide-seq以及扩增子测序数据的上传,有鉴于此,小编为大家分享一个高效的解决方案,只需要一条命令行即可解放您的双手,省时又省力。
准备工作
在开始之前,确保您已经注册了NCBI账户,同时拥有一台网络连接稳定的服务器。
安装数据上传软件——IBM Aspera Connect
Aspera 是一个高性能的文件传输软件,旨在安全、快速地传输大型文件和数据集,能够实现接近线速的传输速度,即使在全球范围内的长距离传输中也能保持高性能。
① 下载软件安装包(最新安装包可从https://www.ibm.com/aspera/connect/下载)
wget-c https://download.asperasoft.com/download/sw/connect/3.8.3/ibm-aspera-connect-3.8.3.170430-linux-g2.12-64.tar.gz
② 解压缩
tar -zxvf ibm-aspera-connect-3.8.3.170430-linux-g2.12-64.tar.gz
③ 软件安装
./ibm-aspera-connect-3.8.3.170430-linux-g2.12-64.sh
④ 设置环境变量(aspera connect的运行程序ascp在home目录下,用ls -a可以看到.aspera目录,进入/.aspera/connect/bin/即可找到ascp)
echo"PATH=$PATH:/home/usersname/.aspera/connect/bin/" >> ~/.bashrc
source ~/.bashrc
获取Aspera上传秘钥
① 登录NCBI SRA Submission Portal,并创建一个新的项目(submission)。
② 根据提示填写相关项目信息,并获取数据上传授权。
③ 在第七步数据上传页面选择FTP or Aspera Command Line file preload,并点开下面的Aspera command line instructions,在展开的页面中找到key file并下载到服务器中。
数据上传
上述准备工作完毕后直接复制ascp命令行并替换秘钥文件路径和数据文件夹路径即可一次上传所有测序数据:
ascp -i-QT-l100m-k1-dsubasp@upload.ncbi.nlm.nih.
gov:uploads/xxxxxxxxxxxx.edu.cn_O3uyqZDF
例:
nohup ascp -i /Software/aspera/key/aspera.openssh -QT -l100m -k1 -d /data/guide-seq_rawdata/ subasp@upload.ncbi.nlm.nih.gov:uploads/zpli@generulor.com_O3uyqZDF &
参数解释:
-i:上面第3步中获取的秘钥具体路径。
-QT:这是个参数组合,有两部分,-Q表示使用“静默”模式,这意味着在传输过程中,不会输出进度条和性能报告。-T表示禁用加密,可以提高传输速度。
-l100m:设置了目标速率限制为 100 Mbps(兆比特每秒),这可以根据您的网络带宽和需求来调整。
-k1: 表示在传输过程中,如果发生错误,Aspera 将会尝试从断点(上一个传输过程中断的位置)重新传输,而不是从头开始。
-d:存放待上传数据的文件夹路径。
使用服务器版的Aspera上传测序数据到NCBI能够提供高效率和高稳定性的数据传输服务。这一过程可以显著提高大规模数据上传的速度,帮助大家节省时间,并确保数据的安全和完整性。
舒桐科技是国内领先的基因编辑服务提供商,可提供sgRNA设计、扩增子测序及基因编辑效率分析,脱靶检测等服务。如有需求,欢迎咨询!
关于舒桐
如需获得更多信息,请咨询我们:
电话:
400-6309596
15022705442(同微信)
企业官网:
http://www.generulor.com
产品订购/技术支持:
service@generulor.com

