生信分析22：完整的转座子注释流程

作者: 我与生信 | 来源:发表于2023-10-18 17:35 被阅读0次

单基因生信分析流程（5）计算单基因相关miRNA
单基因生信分析流程（2）一文解决差异分析、基因相关分析问题
单基因生信分析流程（3）一文解决生存分析和临床参数相关分析
RNA-Seq学习记录（一）——资料搜集
干货：数据分析师的完整流程与知识结构体系
mtSC：整合多参考数据集进行单细胞亚群注释
转座子分类软件deepTE简介
[目录]生信相关的优质workflow整合【1】
单基因生信分析流程（11）单细胞测序分析之细胞注释
sam/bam文件

本次推送是文献分享22的对应内容。我与生信，公众号：我与生信文献分享22：泛基因组解析柑橘亚科进化以及柑橘果实中柠檬酸积累的关键基因

EDTA是比较推荐的一款注释TE的软件，图1是其运行流程图。

图1

第一步，EDTA利用内置的其他软件进行初始注释，这一步的注释结果并不是最终结果，而是构建一个该物种特异性的转座子库。

第二步，对初始注释的结果进行过滤。

第三步构建该物种特异性的TE库，这一步可以加入其他库进行补充。注释的本质还是基于同源性，所以这一步库越丰富越好。

第四步注释得到最终结果。

分析流程

图2

软件依赖：EDTA (https://github.com/oushujun/EDTA)，安装代码为图2。

输入文件：基因组序列文件(fa格式)和注释文件(gtf格式)

EDTA进行转座子注释存在两个问题：

1、SINE和LINE类型的转座子注释效果很差，可以提供人工矫正的SINE和LINE库用以补充。

2、注释出的LTR型转座子很多是未分类的，可以利用DeepTE软件进行进一步分类。

下面开始介绍整合这两个解决方案后的EDTA完整注释流程。

图3

第一步使用EDTA进行初步注释（图3）

注意提前进入EDTA环境

图4

EDTA参数说明（图4）

--genome 指定参考基因组

--species 指定注释TIR转座子的方法，该软件一开始是针对玉米和水稻设计的，因此选项里带有玉米和水稻，对于其他物种，选择others即可。

--step 运行注释流程的哪一步，见图 1中的流程。

--curatedlib 提供额外数据库。

--cds 是否进行CDS过滤，一般没必要。

--sensitive 1指定运行RepeatModeler，0不运行，运行RepeatModeler会极其慢，需注意。

--exclude 用于屏蔽某些区域，一般也没必要。

--repeatmodeler和—repeatmasker 指定两个软件的安装目录，一般没必要，可自行查找。

--u 指定核苷酸变异速率，用来计算LTR插入时间。

图5

图6

--curatedlib参数加入了额外的SINE/LINE库，可以从SIINE base数据库(https://sines.eimb.ru/)下载（图5和图6）。

第二步利用DeepTE对未分类的LTR进一步分类（图7）

DeepTE基于深度学习进行进一步分类

图7

第三步重新运行EDTA进行最终注释（图8）

图8

图9

genome.fa.mod.EDTA.TEanno.sum文件包含了最终的统计信息（图9）。

参考链接

https://genek.cn/

网友评论

RNASeq 数据分析

本文标题：生信分析22：完整的转座子注释流程

本文链接：https://www.haomeiwen.com/subject/eqecidtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

生信分析22：完整的转座子注释流程

相关文章

单基因生信分析流程（5）计算单基因相关miRNA

单基因生信分析流程（2）一文解决差异分析、基因相关分析问题

单基因生信分析流程（3）一文解决生存分析和临床参数相关分析

RNA-Seq学习记录（一）——资料搜集

干货：数据分析师的完整流程与知识结构体系

mtSC：整合多参考数据集进行单细胞亚群注释

转座子分类软件deepTE简介

[目录]生信相关的优质workflow整合【1】

单基因生信分析流程（11）单细胞测序分析之细胞注释

sam/bam文件

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

RNASeq 数据分析