NCBI中SRA数据下载与转换#

一般来说,对于NCBI中的SRA数据我们会使用sra-tools所包含的prefetch工具进行下载。但总会遇到无法连接NCBI、下载速度慢和证书失效等等问题。下面就教大家如何使用多种方法下载。

1.prefetch命令下载#

单样本下载#

使用prefetch XXX(数据号)直接下载单样本

多样本下载#

首先先从NCBI中获得SRR_Acc_List.txt。点击Accession List,会获得一个SRR_Acc_List.txt,里面包含了数据号。

fig1 SRR_Acc_List.txt内容示例 fig2

使用prefetch -option-file SRR_Acc_List.txt批量下载多样本

2.通过wget & curl进行单样本下载#

当遇到prefetch命令无法连接NCBI、下载速度慢和证书失效等等问题,可以使用wgetcurl命令下载。

首先选择并点击需要的数据

fig3

点击Data access会获得该数据的下载地址,复制下载地址后使用wgetcurl命令。

fig4

接下来开始使用wgetcurl命令进行内容下载(https后替换为实际下载地址)!

wget https://sra-pub-run-odp.s3.amazonaws.com/sra/SRR34509456/SRR34509456

curl -O https://sra-pub-run-odp.s3.amazonaws.com/sra/SRR34509456/SRR34509456

3.SRA数据转fastq#

使用prefetch下载的数据#

直接使用fasterq-dump命令进行数据转化和拆分(SRR34509456.sra替换为实际数据)。

fasterq-dump SRR34509456.sra --split-files

使用wget & curl下载的数据#

使用wget & curl下载的数据会缺少.sra后缀,因此需要重命名后再运行fasterq-dump(SRR34509456.sra替换为实际数据)。

例如: 使用wget & curl下载的数据名为SRR34509456,需要将SRR34509456重命名为SRR34509456.sra 然后再运行fasterq-dump SRR34509456.sra --split-files

注意:不重名直接运行fasterq-dump SRR34509456 --split-files该命令会重新下载数据