基因家族鉴定---Blastp

作者: MLD_TRNA | 来源:发表于2021-05-21 15:25 被阅读0次

    数据:

    研究物种的基因组文件:Protein.fasta

    近源种的基因家族蛋白序列 :protein.fasta

    建库:

    makeblastdb -in input_file  -dbtype  molecule_type  -parse_seqids -out  database_name   -logfile  File_Name 
    

    input_file替换为近源物种的目标基因家族的序列名

    molecule_type为序列类型,更改为nucl为核酸或者prot为蛋白

    -parse_seqids 推荐加上

    database_name更改为数据库名(用于比对的库)

    File_Name更改为日志文件名,如果没有默认输出到屏幕

    比对:

    blastp -query seq.fasta -out seq.blast -db dbname -outfmt 6 -evalue 1e-5
    

    seq.fasta: 输入文件路径及文件名

    seq.blast:输出文件路径及文件名

    dbname格式化了的数据库路径及数据库名(就是建库时候的数据库名)

    -outfmt:输出文件格式,总共有12种格式,6是tabular格式对应之前BLAST的m8格式,不写该参数的话,默认输出比对文件

    -evalue:设置输出结果的e-value值

    -num_alignments 显示比对数

    Default = 250 -num_descriptions:单行描述的最大数目 *

    default=50 -num_threads:线程

    图片.png
    blast输出格式有18种,常用的是-outfat 6
    图片.png
    Query id:查询序列ID标识
    Subject id:比对上的目标序列ID标识
    % identity:序列比对的一致性百分比
    alignment length:符合比对的比对区域的长度
    mismatches:比对区域的错配数
    gap openings:比对区域的gap数目
    q. start:比对区域在查询序列(Query id)上的起始位点
    q. end:比对区域在查询序列(Query id)上的终止位点
    s. start:比对区域在目标序列(Subject id)上的起始位点
    s. end:比对区域在目标序列(Subject id)上的终止位点
    e-value:比对结果的期望值,将比对序列随机打乱重新组合,和数据库进行比对,如果功能越保守,则该值越低;该E值越高说明比对的高得分值是由GC区域,重复序列导致的。对于判断同源性是非常有意义的几个参数。
    bit score:比对结果的bit score值

    筛选blastp最优结果导出

    sort -k1,1 -k12,12nr -k11,11n  blast.2.out | sort -u -k1,1 --merge >blast.2.o
    
    blast结果
    blast结果筛选后

    得到候选集

    筛选参考bitacora篇

    https://www.jianshu.com/writer#/notebooks/47211707/notes/85546375

    相关文章

      网友评论

        本文标题:基因家族鉴定---Blastp

        本文链接:https://www.haomeiwen.com/subject/vvcbjltx.html