首先对目标基因组建库,使用的命令为 makeblastdb;
makeblastdb -in input_file -dbtype molecule_type -title database_title -out database_name -logfile File_Name
-in 后接输入文件,要建库的fasta序列
-dbtype 序列类型,nucl为核酸,prot为蛋白
-title 数据库名称,不是在后面搜索时-db的参数
-out 数据库名称,以后 blast 搜索时要用到的 -db 的参数
-logfile 日志文件,可选参数,如果没有默认输出到屏幕
而后就可以进行 blast 序列搜索了
blastn:将核苷酸序列比对至核苷酸数据库。
blastp:将氨基酸序列比对至氨基酸数据库。
blastx:将核苷酸序列比对至氨基酸数据库。
tblastn:将氨基酸序列比对至核苷酸数据库。比对时,将输入的氨基酸序列与数据库中核苷酸序列翻译后的氨基酸序列逐一比对。
tblastx:将核苷酸序列比对至核苷酸数据库。与blastn的区别是比对时,输入的核苷酸序列与数据库中的核苷酸序列都先翻译为氨基酸序列,而后再进行逐一比对。
以 blastn 为例:
blastn -db database_name -query input_file -out output_file -evalue evalue -max_target_seqs num_sequences -num_threadsint_value -outfmt format
-db 指定blast搜索用的数据库
-query 用来查询的输入序列,fasta格式
-out 输出结果文件
-evalue 设置e值cutoff
-max_target_seqs 设置最多的目标序列匹配数
-num_threads 指定多少个cpu运行任务
-outfmt 控制输出格式
详细介绍一下 outfmt 参数;
可选的有0~18,常用的有0,5,6,7
0:成对输出,与在线比对结果相同
5:输出XML格式
6:输出table格式
7:输出带有注释行的table格式
7 表示带注释行的 tab 格式的输出。可以自定义要输出哪些内容(也可以不加任何参数,单单指定 7),用空格分格跟在 7 的后面,并把所有的输出控制用双引号括起来,其中 qacc 查询序列的 acc,sacc 表示目标序列的 acc,evalue 即是 e 值,length 即是匹配的长度,pident 即是序列相同的百分比。
比如:-outfmt "7 qacc sacc evalue length pident"
qacc:查询基因的序列号
sacc:库基因的序列号
qstart:查询基因的匹配开始位置
sstart:库基因的匹配开始位置
qend:查询基因的匹配结束位置
send:库基因的匹配结束位置
qseq:查询基因的匹配序列
sseq:库基因的匹配序列
evalue:期望值
bitscore:比特得分还是每对得分?(这个没用过)
score:原始得分
length:对齐长度
pident:相同匹配百分比
nident:相同匹配数量
mismatch:不匹配数量
gaps:间隙数
gapopen:间隙开口数
positive:积极得分的个数
ppos:积极得分的百分比
网友评论