TransDecoder

作者: 维凡生物 | 来源:发表于2021-12-27 11:09 被阅读0次

TransDecoder软件预测转录本ORF阅读框和编码区
TransDecoder
无参转录组的组装注释部分（1）
Gff3_to_gtf && gff3_to_bed
TransDecoder、blast+、hmmer安装 & Pf
Transdecoder预测转录本的开放阅读框（CDS）
使用hisat2+stringtie进行基因预测
使用TransDecoder寻找转录本中的编码区
使用TransDecoder寻找转录本中的编码区
利用TransDecoder提取转录本CDS、UTR序列

TransDecoder

TransDecoder识别转录本序列中的候选编码区，例如使用 Trinity 从头 RNA-Seq 转录本组装生成的编码区，或使用 Tophat 和 Cufflinks 基于与基因组的 RNA-Seq 比对构建的编码区。

TransDecoder 基于以下标准识别可能的编码序列：
1.在转录本序列中需要能够找到一个（满足）最小（限定）长度的ORF;
2.对数似然数得分大于0。（与GeneID软件计算得到的得分相类似）;
3.第一阅读框的对数似然数打分同其它5个阅读框比较为最大值时;
4.如果候选的ORF完全被包含在其它候选ORF的框架内，那么报告最长的ORF。否则，一个单独的转录本会得到多个ORF的报告。（考虑到有操纵子、嵌合体等情况）;
5.作为可选项，预测出的多肽在Pfam domain库中存在比对分值高于得分阈值之上的。
6.该软件主要由Broad Institute的Brian Haas和Commonwealth Scientific and Industrial Research Organisation的Alexie Papanicolaou维护。它被整合在其它相关的软件中：Trinity，PASA，EVidenceModeler和Trinotate。

TransDecoder相关使用方法来啦!!!!

一、软件安装

直接从https://github.com/TransDecoder/TransDecoder/releases下载最新版的TransDecoder

二、软件使用

TransDecoder通过运行一个包含目的转录本序列的fasta文件来实现功能。简单的用法如下：

Step 1: 提取最长的开放阅读框

TransDecoder.LongOrfs -t target_transcripts.fasta

默认情况下，TransDecoder.LongOrfs将识别长度至少为100个氨基酸的开放阅读框。可以通过-m参数来降低这个值，但是要知道随着最小长度的变短，ORF预测的假阳性率迅速增长。

Step 2: (可选)
可选地，可以通过blast或者pfam搜索已知蛋白的同源序列来识别ORF。

Step 3: 预测可能的编码区

TransDecoder.Predict -t target_transcripts.fasta [ homology options ]

候选编码区的最终集合可以在文件.transdecoder中找到。扩展名包括.pep，.cds，.gff3和.bed。

从有参考基因组的转录结果GTF文件预测编码区域：
1.需要有参转录组比对后拼接的转录本的GTF文件以及参考基因组序列：

cufflinks_gtf_genome_to_cdna_fasta.pl transcripts.gtf test.genome.fasta > transcripts.fasta

将GTF文件转化为GFF3文件：

cufflinks_gtf_to_alignment_gff3.pl transcripts.gtf > transcripts.gff3

接着就跟上面的步骤一样了：

TransDecoder.LongOrfs -t transcripts.fasta

最后生成一个基于有参基因组的编码区域注释文件:

cdna_alignment_orf_to_genome_orf.pl transcripts.fasta.transdecoder.gff3 transcripts.gff3 transcripts.fasta > transcripts.fasta.transdecoder.genome.gff3

三、输出文件说明

longest_orfs.pep : 所有达到最小长度标准的ORF, 不管是否编码
longest_orfs.gff3 : 在目的转录本中发现的所有ORF的位置
longest_orfs.cds : 所有检测到的ORF的核酸编码序列
longest_orfs.cds.top_500_longest : 前500个最长的ORF，用于训练一个编码序列的马尔科夫模型
hexamer.scores : 每个k-mer的对数似然得分 (coding/random)
longest_orfs.cds.scores : 每个ORF同6个阅读框间对数似然得分的总和
longest_orfs.cds.scores.selected : 根据得分标准所选出的ORF
longest_orfs.cds.best_candidates.gff3 : 转录本中选出的ORF的位置

然后，最后的输出文件在你当前的工作目录中。
transcripts.fasta.transdecoder.pep : 最终候选ORF的蛋白质序列；所有较长ORF中的较短的候选序列已被移除。
transcripts.fasta.transdecoder.cds : 最终候选ORF的编码区的核酸序列。
transcripts.fasta.transdecoder.gff3 : 最终被选中的ORF在目的转录本中的位置
transcripts.fasta.transdecoder.bed : 用来描述ORF位置的bed格式文件，最好用GenomeView或IGV来查看。

END