bitacora下载链接https://github.com/molevol-ub/bitacora
至于它的原理,GitHub有说明书,不再赘述。保证看完以下都会操作!!!
第一:打开runBITACORA.sh,然后如下操作:
该脚本存在于软件安装文件夹
更新blast、hmmer、bitacora、Gemoma三个软件的对应文件夹的绝对路径 export PATH=$PATH:/home/zf/install/blast-2.7.1/bin export PATH=$PATH:/home/zf/install/hmmer-3.2.1/src SCRIPTDIR=/home/zf/install/bitacora-1.3/Scripts GEMOMAP=/home/zf/install/GeMoMa-1.7.1/GeMoMa-1.7.1.jar
更新基因组、结构注释、功能注释文件路径GENOME=/mnt/hgfs/SUXIN/ShuoShi/Anoplophora_glabripennis/shuju/Aglag.fasta GFFFILE=/mnt/hgfs/SUXIN/ShuoShi/Anoplophora_glabripennis/shuju/Agla.gff ROTFILE=/mnt/hgfs/SUXIN/ShuoShi/Anoplophora_glabripennis/shuju/Aglap.fasta
query文件夹里面是近源物质的蛋白序列(来自NCBI蛋白数据库,下载的蛋白需要具备目的基因家族的全部亚家族分支,所以要建树观察后再增减筛选)、下载自Pfam的基因家族的hmmr文件(如CYP:PF00067).并以CYP_db.fasta和CYP_db.hmm命令。同时也要更新其路径QUERYDIR=/mnt/hgfs/SUXIN/ShuoShi/Anoplophora_glabripennis/P450/query
友情提示:
一般来说同一个电脑处理多个物种的基因家族时,复制移动runBITACORA.sh不用更改软件的路径,只需更改下面四个数据的路径即可。
第二:展示一下文件夹结构
某物种主文件下:
data文件夹:genome.fa、protein.fa、xx.gff
run文件夹:runBITACORA
query文件夹:xxx_db.fa、xxx_db.hmm
第三:运行
在run文件夹中打开终端,输入
bash runBITACORA.sh
静静地等待吧,我的四核8G内存的电脑处理一百多兆的基因组需要十几分钟
第四:结果展示
鉴定出来的基因家族在CYP 文件夹,该名字对应于CYP_db.fasta。其他的都是hmmer、blast的缓存文件, 我还没探索,因为我用不到 结果里面我只用了红线的最终文件,其他也不知道第五:验证结果
鉴定出来的结果会在搜索过程中多鉴定一些结构域不清的序列,需要通过以下网址上传序列进行验证。然后删除出错的序列,进行后续研究。
Pfam
https://pfam.xfam.org/search#tabview=tab1
NCBI
https://www.ncbi.nlm.nih.gov/Structure/bwrpsb/bwrpsb.cgi
以上两个都是默认参数,上传文件和邮箱地址即可,下面这个还没探索。
SMART
http://smart.embl-heidelberg.de/#
多序列比对,手动检查保守结构域
https://www.ncbi.nlm.nih.gov/Structure/cdd/wrpsb.cgi支持蛋白序列、核酸序列,单条
https://www.ncbi.nlm.nih.gov/Structure/bwrpsb/bwrpsb.cgi支持多条(a file),只支持蛋白序列
结果解读:https://www.sohu.com/a/216315762_419916
网友评论