在nr库这里挣扎许久了。数据库太大,下载和建库都很困难。下载了nr blast库,拆分更容易下载,但是没搞定blast版本的更新,下载的是5的库,软件还是4?尝试从库里抽提fasta自己建库(用新版的blast,默认是单线程,需要另外configure)。
一、直接下载nr blast库
ncbi ftp:ftp://ftp.ncbi.nih.gov/blast/db/
wget -c ftp://ftp.ncbi.nih.gov/blast/db/nr.*.tar.gz
因为是拆分好的,下载速度还可以,完全依赖网速。
ascp也许更快吧:NR数据库简介
二、blastp nr 注释
blastp \
-db /home/cheng/Databases/NCBI_nr/nr \
-query Result/prokka/genome_prokka.faa \
-out Result/nr/genome_nr.txt \
-qcov_hsp_perc 80 \
-outfmt 6 \
-evalue 1e-5 \
-num_threads 52
问题1:无法使用多线程
问题2:blastp版本不够。BLAST Database error: Error: Not a valid version 4 database.
源码安装最新版:源码安装blast+及安装和配置GPU-Blast
方案1:获取fasta自行建库
方案2:使用新版blast
试试方案1:
三、从nr blast 库提取fasta
- blastdbcmd
How to extract fasta from a blastdb
blastdbcmd -db nr -entry all -dbtype prot -out test.fa
BLAST Database error: Error: Not a valid version 4 database
- 源码安装新版blast,重新blastdbcmd
/home/cheng/softwares/ncbi-blast-2.10.0+-src/c++/ReleaseMT/bin/blastdbcmd -db nr -entry all -dbtype prot -out test.fa
nr.04数据库不全,尝试ascp重新下载
四、ascp下载nr.*.tar.gz
- 部分nr库不全,重新下载,用ascp
Aspera,超高速下载测序数据
wget https://download.asperasoft.com/download/sw/connect/3.8.1/ibm-aspera-connect-3.8.1.161274-linux-g2.12-64.tar.gz
tar xzvf ibm-aspera-connect-3.8.1.161274-linux-g2.12-64.sh
sh ibm-aspera-connect-3.8.1.161274-linux-g2.12-64.sh
export PATH=$PATH:/home/cheng/.aspera/connect/bin # 添加bin到系统环境变量,每个终端都要用一下
cp ~/.aspera/connect/etc/asperaweb_id_dsa.putty ~/ # 复制文件下的密钥文件到主目录下
cp ~/.aspera/connect/etc/asperaweb_id_dsa.openssh ~/
sudo cp aspera-license /usr/local/bin/ # etc目录下,复制证书到系统目录下 (需要root权限)
- 下载不全的nr
参数:
-i PRIVATE-KEY-FILE Private-key file name (id_rsa) 私有密钥文件名称
-l MAX-RATE Max transfer rate 最大传输速率
-T Disable encryption 禁用加密
-k RESUME-LEVEL Resume criterion: 0,3,2,1 断点续传
-P SSH-PORT TCP port used for SSH authentication 一般是33001?
ascp -i ~/asperaweb_id_dsa.putty -anonftp@ftp-private.ncbi.nlm.nih.gov:/blast/db/FASTA/nr.04.tar.gz ./
ascp -i ~/asperaweb_id_dsa.openssh -QTr -l 6000m anonftp@ftp-private.ncbi.nlm.nih.gov:/blast/db/FASTA/nr.04.tar.gz ./
终究还是用了wget...
五、nr blast 库提取fasta
/home/cheng/softwares/ncbi-blast-2.10.0+-src/c++/ReleaseMT/bin/blastdbcmd -db nr -entry all -dbtype prot -out test.fa
- 查看结果,包含:
序列ID,名称,物种
>EFG1759503.1 decarboxylating NADP(+)-dependent phosphogluconate dehydrogenase [Escherichia coli]
LKPYLDKGDIIIDGGNTFFQDTIRRNRELSAEGFNFIGTGVSGGEEGALKGPSIMPGGQKEAYELVAPILTKIAAVAEDG
EPCVTYIGADGAGHYVKMVHNGIEYGDMQLIAEAYSLLKGGLNLTNEELAQTFTEWNNGELSSYLIDITKDIFTKKDEDG
NYLVDVILDEAANKGTGKWTSQSALDLGEPLSLITESVFARYISSLKEQRVAASKVLSGPQAQPAGDKGEFIEKVRRALY
LGKIVSYAQGFSQLRAASEEYNWDLNYGEIAKIFRAGCIIRAQFLQKITDAYIENPQIANLLLAPYFKQIADNYQQALRE
VVAYAVQNGIPVPTFAAAVAYYDSYRAAVLPANLIQAQRDYFGAHTYKRIDKEGVFHTEWL
>KJX92028.1 hypothetical protein TI39_contig5958g00003 [Zymoseptoria brevis]
。。。
网友评论