基因家族鉴定---BITACORA

作者: MLD_TRNA | 来源:发表于2021-03-24 15:35 被阅读0次

    bitacora下载链接https://github.com/molevol-ub/bitacora

    至于它的原理,GitHub有说明书,不再赘述。保证看完以下都会操作!!!

    第一:打开runBITACORA.sh,然后如下操作:

    该脚本存在于软件安装文件夹  

    更新blast、hmmer、bitacora、Gemoma三个软件的对应文件夹的绝对路径                                                                    export PATH=$PATH:/home/zf/install/blast-2.7.1/bin                                                                                                          export PATH=$PATH:/home/zf/install/hmmer-3.2.1/src                                                                                                        SCRIPTDIR=/home/zf/install/bitacora-1.3/Scripts                                                                           GEMOMAP=/home/zf/install/GeMoMa-1.7.1/GeMoMa-1.7.1.jar

    更新基因组、结构注释、功能注释文件路径GENOME=/mnt/hgfs/SUXIN/ShuoShi/Anoplophora_glabripennis/shuju/Aglag.fasta GFFFILE=/mnt/hgfs/SUXIN/ShuoShi/Anoplophora_glabripennis/shuju/Agla.gff ROTFILE=/mnt/hgfs/SUXIN/ShuoShi/Anoplophora_glabripennis/shuju/Aglap.fasta

    query文件夹里面是近源物质的蛋白序列(来自NCBI蛋白数据库,下载的蛋白需要具备目的基因家族的全部亚家族分支,所以要建树观察后再增减筛选)、下载自Pfam的基因家族的hmmr文件(如CYP:PF00067).并以CYP_db.fasta和CYP_db.hmm命令。同时也要更新其路径QUERYDIR=/mnt/hgfs/SUXIN/ShuoShi/Anoplophora_glabripennis/P450/query

    友情提示:

    一般来说同一个电脑处理多个物种的基因家族时,复制移动runBITACORA.sh不用更改软件的路径,只需更改下面四个数据的路径即可。

    第二:展示一下文件夹结构

    某物种主文件下:

         data文件夹:genome.fa、protein.fa、xx.gff

         run文件夹:runBITACORA

         query文件夹:xxx_db.fa、xxx_db.hmm

    第三:运行

    在run文件夹中打开终端,输入

    bash runBITACORA.sh

    静静地等待吧,我的四核8G内存的电脑处理一百多兆的基因组需要十几分钟

    第四:结果展示

                        鉴定出来的基因家族在CYP 文件夹,该名字对应于CYP_db.fasta。其他的都是hmmer、blast的缓存文件,                                我还没探索,因为我用不到 结果里面我只用了红线的最终文件,其他也不知道

    第五:验证结果

    鉴定出来的结果会在搜索过程中多鉴定一些结构域不清的序列,需要通过以下网址上传序列进行验证。然后删除出错的序列,进行后续研究。

    Pfam

    https://pfam.xfam.org/search#tabview=tab1

    NCBI

    https://www.ncbi.nlm.nih.gov/Structure/bwrpsb/bwrpsb.cgi

    以上两个都是默认参数,上传文件和邮箱地址即可,下面这个还没探索。

    SMART

    http://smart.embl-heidelberg.de/#

    多序列比对,手动检查保守结构域

    https://www.ncbi.nlm.nih.gov/Structure/cdd/wrpsb.cgi支持蛋白序列、核酸序列,单条

    https://www.ncbi.nlm.nih.gov/Structure/bwrpsb/bwrpsb.cgi支持多条(a file),只支持蛋白序列

    结果解读:https://www.sohu.com/a/216315762_419916

    讲完了,请批评指正!


    相关文章

      网友评论

        本文标题:基因家族鉴定---BITACORA

        本文链接:https://www.haomeiwen.com/subject/hohhhltx.html