建库
makeblastdb -in uniprot_sprot.fasta -dbtype prot -title uniprot_sprot -parse_seqids -out uniprot_sprot -logfile uniprot_sprot.log
蛋白比对
blastp -query Echi-OGsequence.fa -out swiss-prot.tab -db uniprot_sprot -evalue 1e-5 -outfmt 7
提取ID
seqkit fx2tab swiss-prot.tab -n -i >id.fa
blast 更多选项 以及-help.
- blastn:是将给定的核酸序列与核酸数据库中的序列进行比对;
- Blastp:是使用蛋白质序列与蛋白质数据库中的序列进行比对。作用:可以寻找较远源地序列;
- Blastx:将给定的核酸序列按照六种阅读框架将其翻译成蛋白质与蛋白质数据库中的序列进行比对。作用:对分析新序列和EST很有用;
EST:Expressed Sequence Tag的缩写,意思是表达序列标签,指从一个随机选择的cDNA 克隆,进行5’端和3’端单一次测序挑选出来获得的短的cDNA 部分序列。
六种阅读框架:一段DNA或RNA序列有多种不同读取方式,因此可能同时存在许多不同的开放阅读框架。开放阅读框包含一段可以编码蛋白的碱基序列,不能被终止子打断。 当一个新基因被识别,其DNA序列被解读,人们仍旧无法搞清相应的蛋白序列是什么。这是因为在没有其它信息的前提下,DNA序列可以按六种框架阅读和翻译(核酸有两条链,每条链三种,对应三种不同的起始密码子)。
一个DNA顺序可能有3种阅读框,但只有一种具有编码的作用,称为开放阅读框(open reading frame or ORF)。有的阅读框因终止密码出现频繁故不能生成蛋白,这种阅读框称为封闭阅读框(block reading frame)。若一个顺序所有的三个阅读框都是封闭的,则它无编码蛋白的功能。一个翻译成蛋白的顺序有一个阅读框,开始于AUG起始密码子,通过一系列有义密码子,直到终止密码子结束。通常3个阅读框中总有封闭阅读框的存在。
- Tblastn:将给定的氨基酸序列与核酸数据库中的序列(双链)按不同的阅读框进行比对。作用:对于寻找数据库中序列没有标注的新编码区很有用;
- Tblastx:只在特殊情况下使用,它将DNA被检索的序列和核酸序列数据库中的序列按不同的阅读框全部翻译成蛋白质序列,然后进行蛋白质序列比对。
————————————————
版权声明:本文为CSDN博主「Bella945」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/weixin_41796972/article/details/100761434
makeblastdb:建立自定义的比对序列库
网友评论