美文网首页RNASeq 数据分析
生信分析22:完整的转座子注释流程

生信分析22:完整的转座子注释流程

作者: 我与生信 | 来源:发表于2023-10-18 17:35 被阅读0次
    本次推送是文献分享22的对应内容。 我与生信,公众号:我与生信文献分享22:泛基因组解析柑橘亚科进化以及柑橘果实中柠檬酸积累的关键基因

    EDTA是比较推荐的一款注释TE的软件,图1是其运行流程图。

    图1

    第一步,EDTA利用内置的其他软件进行初始注释,这一步的注释结果并不是最终结果,而是构建一个该物种特异性的转座子库。

    第二步,对初始注释的结果进行过滤。

    第三步构建该物种特异性的TE库,这一步可以加入其他库进行补充。注释的本质还是基于同源性,所以这一步库越丰富越好。

    第四步 注释得到最终结果。

    分析流程

    图2 

    软件依赖:EDTA (https://github.com/oushujun/EDTA),安装代码为图2。

    输入文件:基因组序列文件(fa格式)和注释文件(gtf格式)

    EDTA进行转座子注释存在两个问题:

    1、SINE和LINE类型的转座子注释效果很差,可以提供人工矫正的SINE和LINE库用以补充。

    2、注释出的LTR型转座子很多是未分类的,可以利用DeepTE软件进行进一步分类。

    下面开始介绍整合这两个解决方案后的EDTA完整注释流程。

    图3

    第一步 使用EDTA进行初步注释(图3)

    注意提前进入EDTA环境

    图4 

    EDTA参数说明(图4)

    --genome 指定参考基因组

    --species 指定注释TIR转座子的方法,该软件一开始是针对玉米和水稻设计的,因此选项里带有玉米和水稻,对于其他物种,选择others即可。

    --step 运行注释流程的哪一步,见图 1中的流程。

    --curatedlib 提供额外数据库。

    --cds 是否进行CDS过滤,一般没必要。

    --sensitive 1指定运行RepeatModeler,0不运行,运行RepeatModeler会极其慢,需注意。

    --exclude 用于屏蔽某些区域,一般也没必要。

    --repeatmodeler和—repeatmasker 指定两个软件的安装目录,一般没必要,可自行查找。

    --u 指定核苷酸变异速率,用来计算LTR插入时间。

    图5

    图6

    --curatedlib参数加入了额外的SINE/LINE库,可以从SIINE base数据库(https://sines.eimb.ru/)下载(图5和图6)。

    第二步 利用DeepTE对未分类的LTR进一步分类(图7)

    DeepTE基于深度学习进行进一步分类

    图7

    第三步 重新运行EDTA进行最终注释(图8)

    图8

    图9

    genome.fa.mod.EDTA.TEanno.sum文件包含了最终的统计信息(图9)。

    参考链接

    https://genek.cn/

    相关文章

      网友评论

        本文标题:生信分析22:完整的转座子注释流程

        本文链接:https://www.haomeiwen.com/subject/eqecidtx.html