美文网首页生信分析同源基因检测🐷✍
blast与blast+使用(参数、输出文件格式)

blast与blast+使用(参数、输出文件格式)

作者: 纵春水东流 | 来源:发表于2019-07-14 21:29 被阅读0次

    一、BLAST+(NCBI发布于2009年)

    下载地址:ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/

    1、建库

    makeblastdb -in db.fasta -dbtype prot -out dbname
    

    参数说明
    -in:待格式化的序列文件
    -dbtype:数据库类型,prot或nucl
    -out:数据库名
    -parse_seqids:解析序列标识(建议加上)
    -out:数据库名
    -title:数据库名(略)
    -logfile:日志文件,默认输出到屏幕
    更多参数 makeblastdb -help
    2、比对

    blastp -query seq.fasta -out seq.blast -db dbname -outfmt 6 -evalue 1e-5 -num_threads 4
    

    参数说明
    -query: 输入文件路径及文件名
    -out:输出文件路径及文件名
    -db:格式化了的数据库路径及数据库名
    -outfmt:输出文件格式,总共有12种格式,6是tabular格式对应之前BLAST的m8格式
    -evalue:设置输出结果的e-value值
    -num_alignments 显示比对数Default = 250
    -num_descriptions:单行描述的最大数目 default=50
    -num_threads:线程数
    更多参数 blastp -help

    3、核酸序列比对核酸数据库(blastn)以及核酸序列比对蛋白数据库(blastx)

    blastn -query seq.fasta -out seq.blast -db dbname -outfmt 6 -evalue 1e-5 -num_threads 4
    blastx -query seq.fasta -out seq.blast -db dbname -outfmt 6 -evalue 1e-5 -num_threads 4
    

    4、文件格式
    重点是-outfmt 6,也就是之前版本的m 8格式
    结果中从左到右每一列的意义分别是:

    Query_id    Subject_id   %_identity alignment_length   mismatches   gap_openings  q. start  q. end   s. start   s. end   e-value  bit_score
    AKS24976.1  ABU86350.1  25.446  224 149 9   713 931 2   212 3.23e-05    38.1
    AKS24976.1  ABU86150.1  38.596  57  34  1   599 655 16  71  8.09e-05    36.6
    AKS24976.1  ABU86161.1  38.667  75  42  2   578 652 14  84  9.06e-05    37.0
    AKS24976.1  ABU86160.1  38.667  75  42  2   578 652 14  84  9.06e-05    37.0
    AKS24976.1  ABU86162.1  38.667  75  42  2   578 652 14  84  9.31e-05    37.0
    AKS24976.1  ABU86154.1  38.596  57  34  1   599 655 16  71  9.70e-05    36.6
    AKS24976.1  ABU86152.1  38.596  57  34  1   599 655 16  71  9.70e-05    36.6
    AKS24976.1  ABU86329.1  39.130  69  38  2   599 664 83  150 2.51e-04    34.7
    AKS24976.1  ABU86326.1  39.130  69  38  2   599 664 83  150 2.51e-04    34.7
    AKS24976.1  ABU86325.1  39.130  69  38  2   599 664 83  150 2.51e-04    34.7
    
    

    二、blast

    1、建库

    formatdb -i db.seq -p T -o T -l logfile
    

    主要参数:
    -i 输入需要格式化的源数据库名称
    -p 文件类型,是核苷酸序列数据库(F - nucleotide)/蛋白质序列数据库(T – protein),default = T
    -a 输入数据库的格式是否为ASN.1/FASTA [T/F],default = F
    -o 解析选项:解析序列标识并且建立目录[T/F],default = F
    -l 自定义log文件命令default=formatdb.log,记录运行时间、版本号、序列数目等
    -n 自定义库文件命名
    建库结果:
    如果建立的是核酸库,输出为db.seq.nhr、db.seq.nin、db.seq.nsq三个文件,若选择了“-o T”,还会同时输出db.seq.nsd、db.seq.nsi、db.seq.nni、db.seq.nnd四个文件,一共七个。
    蛋白库和核酸库的输出类似,相应的输出文件为:db.seq.nhr、db.seq.nin、db.seq.nsq和db.seq.nsd、db.seq.nsi、db.seq.nni、db.seq.nnd七个文件。
    2、比对

    blastall -i seq.fa -d db.fa -o blast.out -p blastp -F F -m 8 -e 1e-5 -b 10 -v 10 -a 2
    

    主要参数:
    以上流程中所用参数:
    -i 所用查询序列文件
    -d 所用序列数据库的名称 default=nr
    -o BLAST结果的输出文件
    -p 所用程序名称: blastn,blastp,blastx,tblastn,tblastx
    -F 查询序列过滤:将那些给出影响比对结果的低复杂度区域过滤掉 default = T
    -m 比对结果显示格式 defalut=0
    -e 期望值,描述搜索某一特定数据库时,随机出现的匹配序列数目default = 10.0
    -b 显示比对结果的最大数目 default=250
    -v 单行描述的最大数目 default=500
    -a 使用处理器的数目 default = 1(单机)

    -m 比对结果格式选项:

    1 = query-anchored showing identities,查询-比上区域,显示一致性
    2 = query-anchored no identities,查询-比上区域,不显示一致性
    3 = flat query-anchored, show identities,查询-比上区域的屏文形式,显示一致性
    4 = flat query-anchored, no identities,查询-比上区域的屏文形式,不显示一致性
    5 = query-anchored no identities and blunt ends,查询-比上区域,不显示一致性,无突然的结束
    6 = flat query-anchored, no identities and blunt ends,查询-比上区域的屏文形式,不显示一致性
    7 = XML Blast output,XML格式的输出
    8 = tabular,TAB格式的输出
    9 =tabular with comment lines,带注释行的TAB格式的输出
    10 =ASN, text,文本方式的ASN格式输出
    11 =ASN, binary [Integer] default = 0,二进制方式的ASN格式输出
    

    m8格式12列结果:

    Query id, Subject id, % identity, alignment length, mismatches, gap openings, q.start, q.end, s.start, s.end, e-value, bit score
    第一列为Query(递交序列),
    第二列为数据库序列(目标序列subejct),
    第三列为: identity
    第四列为:比对长度
    第五列为:错配数
    第六列为:gap数
    第七列和第八列为:Query开始碱基位置和结束碱基位置
    第九列和第十列为:Subject开始碱基位置和结束碱基位置
    第十一列为:期望值
    第十二列为:比对得分
    

    参考:
    https://www.jianshu.com/p/2c4c53b74594 --->三种比对方式
    http://blog.sciencenet.cn/blog-299308-1142875.html --->详细格式

    相关文章

      网友评论

        本文标题:blast与blast+使用(参数、输出文件格式)

        本文链接:https://www.haomeiwen.com/subject/jkgikctx.html