使用aspera加速SRA数据下载

使用aspera加速SRA数据下载#

1.下载aspera安装包

截止2025.08.20号,最新版本为4.2.16

wget http://sxygptcloud.com:4000/aspera-connect-3.7.4.147727-linux-64.sh

2.开始安装aspera

bash aspera-connect-3.7.4.147727-linux-64.sh
echo 'export PATH=~/.aspera/connect/bin:$PATH' >> ~/.bashrc && source ~/.bashrc

3.验证是否安装成功

ascp --version 

4.开始下载SRA数据

# 修改SRR20330029为自己需要的SRA号即可,还需要注意下载地址的前缀SRR203/029
ascp -v -Q -T -l 500m -P 33001 -k 1 -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:vol1/fastq/SRR203/029/SRR20330029/ ./SRR20330029

可以看到速度起飞~

image-20250820191114679

5.如何获取完整的下载地址

下面的错误很常见,原因是对应SRA数据的下载地址有问题,特别是地址前缀SRR203/029

image-20250908104724206

那么该如何获取特定SRA数据的完整下载地址?

# 登录服务器终端执行
wget http://sxygptcloud.com:4000/enaBrowserTools-master.zip
unzip enaBrowserTools-master.zip
cd enaBrowserTools-master/python3/
python enaDataGet.py -f fastq SRR20330029 #SRR20330029修改为你想要查询的SRA数据号

image-20250908105024353

当我们看见跳出来这段话后,就可以停止程序运行了!按住键盘的ctrl+c就可以了!

然后我们把红框的地址复制到上面aspera的命令中即可:

era-fasp@fasp.sra.ebi.ac.uk:vol1/fastq/SRR203/029/SRR20330029/

6.如果ascp下载失败怎么办

下面的错误,大概率是因为外网数据连接的问题

image-20250918181051573

解决方案:

# 直接用wget通过具体地址来下载
# -c参数:断点续传,也就是如果下载失败,直接原封不动再次执行命令即可自动续传
wget -nc https://ftp.sra.ebi.ac.uk/vol1/fastq/SRR328/097/SRR32865897/SRR32865897_1.fastq.gz
wget -nc https://ftp.sra.ebi.ac.uk/vol1/fastq/SRR328/097/SRR32865897/SRR32865897_2.fastq.gz

如何获取具体地址

# 其实地址结构很简单,以这个SRR32865897的fastq1文件为例
https://ftp.sra.ebi.ac.uk/vol1/fastq/SRR328/097/SRR32865897/SRR32865897_1.fastq.gz
# 第一部分:https://ftp.sra.ebi.ac.uk/vol1/fastq (一般固定不变)
# 第二部分:SRR328/097/SRR32865897 (根据第5小节的方法去获取)
# 第三部分:SRR32865897_1.fastq.gz (具体的文件名,一般就是fastq1和fastq2)