无论是bitacora、hmmer还是blastp得到的候选集可能都有所不同,所以鉴定完整后取并集较好。
我的做法是导出每一个候选集的ID名
代码为seqkit的
seqkit fx2table xxx.fasta -n -i >out.fa
把每个候选集的id黏贴到Excel中,筛选重复值删除即是并集
然后借助Tbtools根据id在目标物种的蛋白文件中搜索蛋白序列
人工矫正结构注释
对于结构域不完整的(partial),或者length明显过长的(可能是2-3个基因合到一起了),需要手动进行基因结构注释的矫正。
根据GFF文件,找到该基因所在基因组上的位置
根据位置提取基因组上下游序列(看序列长度,如+-3000bp)
将序列blastx NR数据库,根据比对结果,比着序列翻译的3种读码框,寻找GT...AG内含子
同时可以用基因结构预测网站辅助
作者:山竹山竹px
链接:https://www.jianshu.com/p/7ff2cc1ba5ad
来源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
网友评论