1.获取uniport 蛋白序列
![](https://img.haomeiwen.com/i22929949/ea3b26d8da823fed.png)
- 根据uniport ID提取相应的氨基酸序列(这里选择10.5 版本,ID为MSU:LOCxxxID)
perl脚本完成提取,获得文件为:target.seq.fa
3.下载string data base中的氨基酸序列
![](https://img.haomeiwen.com/i22929949/50ef8fb6c781afe8.png)
- 利用blast进行比对,获取ID
首先建库 提供protein.sequences.v11.0.fa 输出string.seq
makeblastdb -in protein.sequences.v11.0.fa -out string.seq -dbtype prot
搜库,其中target.seq.fa为2步产生,-db 为上一步产生的库文件string.seq, -num_alignments 1:只 要第一个匹配。
blastp -query target.seq.fa -db string.seq -out blast.out -evalue 1e-10 -num_alignments 1
-num_threads 4 -outfmt 6
- 提取IDs
cut -f1,2 blast.out >seq.tab
网友评论