maker基因组注释一（基础篇）

作者: 多啦A梦的时光机_648d | 来源:发表于2019-12-11 11:15 被阅读0次

maker基因组注释一（基础篇）
使用MAKER进行基因注释(基础入门）
maker注释篇二(ID转换)
利用泛基因组挖掘目标细菌的靶标基因
宏基因组分箱（六）Prokka基因预测，注释COG、EC、RNA
Where are the Genes in the Genom
使用BRAKER2进行基因组注释
repeat注释---EDTA
IGV基因组浏览器打开BAM文件查看reads比对情况
基因组注释详解

在基因组注释上，MAKER算是一个很强大的分析流程。能够识别重复序列，将EST和蛋白序列比对到基因组，进行从头预测，并在最后整合这三个结果保证结果的可靠性。此外，MAKER还可以不断训练，最初的输出结果可以继续用作输入训练基因预测的算法，从而获取更高质量的基因模型。

1.软件安装

MAKER下载地址

tar xf maker-2.31.10.tgz
cd maker/src
perl Build.PL   检查依赖的库
./Build installdeps
./Build installexes
./Build install
./Build status

看却哪一个就安装哪一个。最后安好了的结果就像下面：

安装结果

记得安装完成后将bin目录添加到环境里，方便使用。

2. 利用maker提供的测试数据运行程序

安装成后，会有一个"data"文件夹存放测试数据。

测试数据

以"dpp"开头的数据集为例，protein表示是同源物种的蛋白序列，est是表达序列标签，存放的是片段化的cDNA序列，而contig则是需要被预测的基因组序列。
新建一个文件夹，并将这些测试数据拷贝过来。

$mkdir test01 ; cd test01
$cp /path/to/maker/data/dpp* .

由于基因组注释设计到多个程序，多个步骤，每个步骤可能都有很多参数需要调整，因此就需要建立专门的配置文件用来告诉maker应该如何控制流程的运行。
如下步骤创建四个以ctl结尾的配置文件。

$maker -CTL
$ls *.ctl
$maker_bopts.ctl  maker_exe.ctl  maker_opts.ctl maker_evm.ctl

maker_exe.ctl: 执行程序的路径
maker_bopt.ctl: BLAST和Exonerat的过滤参数
maker_opt.ctl: 其他信息，例如输入基因组文件
maker_evm.ctl：不知道干啥的
其中maker_exe.ctl包含的是maker需要的软件的路径，可以不用修改，maker_bopt.ctl与maker_evm.ctl也不用修改，要修改的是maker_opt.ctl，它是主要调整输入文件等。用vim打开修改，找到如下几项并修改如下：

genome=dpp_contig.fasta
est=dpp_est.fasta
protein=dpp_protein.fasta
est2genome=1

随后就可以在当前路径运行程序:

$maker &> maker.log &

3. 结果解读

运行上一步会生成一个dpp_contig.maker.output的文件夹，里面包含如下内容：

输出结果

其中 dpp_contig_master_datastore_index.log 记录总体的运行情况，需要关注其中是否有"FAILED", "RETRY", "SKIPPED_SAMLL", "DIED_SIPPED_PERMANET"，因为这意味着有些数据出于某些原因没有运算。如下就是没问题的：

dpp_contig_master_datastore_index.log
最后，将并行运算的结果进行整合，导出GFF文件, 转录本序列和蛋白序列：

$fasta_merge -d dpp_contig_master_datastore_index.log
$gff3_merge -d dpp_contig_master_datastore_index.log

结果如下：

合并结果
其中GFF文件就需要用IGV，JBrowse, Apollo下展示来检查下注释是否正确。
参考：
使用MAKER进行基因注释(基础入门）

maker基因组注释一（基础篇）
在基因组注释上，MAKER算是一个很强大的分析流程。能够识别重复序列，将EST和蛋白序列比对到基因组，进行从头预测...
使用MAKER进行基因注释(基础入门）
在基因组注释上，MAKER算是一个很强大的分析流程。能够识别重复序列，将EST和蛋白序列比对到基因组，进行从头预测...
maker注释篇二(ID转换)
基于上一步我们获得了初步的gff及rna和蛋白文件，maker生成的文件id是默认的，我们可以用maker自带的脚...
利用泛基因组挖掘目标细菌的靶标基因
准备 1.基因组序列下载与注释，使用prokka进行注释，获得gff文件。参考我前一篇：autoprokka:使用...
宏基因组分箱（六）Prokka基因预测，注释COG、EC、RNA
导读 prokka注释细菌基因组，获得该基因组的CDS、Gene、RNA、EC、COG等注释信息。一、基本信息 ...
Where are the Genes in the Genom
基因组注释（Genome annotation）基因组注释是利用生物信息学方法和工具，对基因组所有基因的生物学功...
使用BRAKER2进行基因组注释
使用BRAKER2进行基因组注释 BRAKER2是一个基因组注释流程，能够组合GeneMark，AUGUSTUS和...
repeat注释---EDTA
以前做基因组的repeat注释的时候，我一般都是采用repeatmasker/model的，在注释大点的基因组，尤...
IGV基因组浏览器打开BAM文件查看reads比对情况
输入文件有：物种基因组序列文件、物种基因组注释文件、转录本比对后的BAM文件；以斑胸草雀为例：-基因组注释文件: ...
基因组注释详解
基因组注释(Genome annotation) 是利用生物信息学方法和工具，对基因组所有基因和其他结构高通量注释...