数据:
研究物种的基因组文件:Protein.fasta
近源种的基因家族蛋白序列 :protein.fasta
建库:
makeblastdb -in input_file -dbtype molecule_type -parse_seqids -out database_name -logfile File_Name
input_file
替换为近源物种的目标基因家族的序列名
molecule_type
为序列类型,更改为nucl为核酸或者prot为蛋白
-parse_seqids
推荐加上
database_name
更改为数据库名(用于比对的库)
File_Name
更改为日志文件名,如果没有默认输出到屏幕
比对:
blastp -query seq.fasta -out seq.blast -db dbname -outfmt 6 -evalue 1e-5
seq.fasta
: 输入文件路径及文件名
seq.blast
:输出文件路径及文件名
dbname
格式化了的数据库路径及数据库名(就是建库时候的数据库名)
-outfmt
:输出文件格式,总共有12种格式,6是tabular格式对应之前BLAST的m8格式,不写该参数的话,默认输出比对文件
-evalue
:设置输出结果的e-value值
-num_alignments
显示比对数
Default = 250 -num_descriptions
:单行描述的最大数目 *
default=50 -num_threads
:线程
blast输出格式有18种,常用的是
-outfat 6
图片.png
Query id
:查询序列ID标识Subject id
:比对上的目标序列ID标识% identity
:序列比对的一致性百分比alignment length
:符合比对的比对区域的长度mismatches
:比对区域的错配数gap openings
:比对区域的gap数目q. start
:比对区域在查询序列(Query id)上的起始位点q. end
:比对区域在查询序列(Query id)上的终止位点s. start
:比对区域在目标序列(Subject id)上的起始位点s. end
:比对区域在目标序列(Subject id)上的终止位点e-value
:比对结果的期望值,将比对序列随机打乱重新组合,和数据库进行比对,如果功能越保守,则该值越低;该E值越高说明比对的高得分值是由GC区域,重复序列导致的。对于判断同源性是非常有意义的几个参数。bit score
:比对结果的bit score值
筛选blastp最优结果导出
sort -k1,1 -k12,12nr -k11,11n blast.2.out | sort -u -k1,1 --merge >blast.2.o
blast结果
blast结果筛选后
得到候选集
筛选参考bitacora篇
https://www.jianshu.com/writer#/notebooks/47211707/notes/85546375
网友评论