ncbi ftp站点(ftp://ftp.ncbi.nlm.nih.gov/genomes)是具有相关数据结果的,从中可以下载相关数据。以protein faa格式为例
#step 1 下载assembly_summary,其含有相关的基因组信息,###本次仅下载refseq序列###
wget ftp://ftp.ncbi.nlm.nih.gov/genomes/refseq/Archaea/assembly_summary.txt
#step 2 文件第12列是拼接状态,第20列是ftp路径,下面是下载组装完整的基因组信息。###filesuffix="protein.faa.gz"可以更改为其他格式的文件用以下载其余的文件###
awk -F "\t" '$12=="Complete Genome" && $11=="latest"{print $20}' assembly_summary.txt > ftpdirpaths
awk 'BEGIN{FS=OFS="/";filesuffix="protein.faa.gz"}{ftpdir=$0;asm=$10;file=asm"_"filesuffix;print ftpdir,file}' ftpdirpaths > ftpfilepaths
cut -d / -f 11 ftpfilepaths | paste - ftpfilepaths | while read a b;do echo "wget -c -nd -r -np -k -L -p -nd -P faa $b && gzip -d genbank/$a";done >run_download.sh
#step 3 run bash
bash run_download.sh
QS -m1 -p1 -q name run_download.sh
网友评论