TransDecoder软件预测转录本ORF阅读框和编码区

作者: BINBINCC | 来源:发表于2021-04-15 10:26 被阅读0次

TransDecoder软件预测转录本ORF阅读框和编码区
TransDecoder
使用TransDecoder寻找转录本中的编码区
使用TransDecoder寻找转录本中的编码区
Transdecoder预测转录本的开放阅读框（CDS）
宏基因组功能注释（以COG为例）
使用hisat2+stringtie进行基因预测
转录本预测编码区：在transcript中找CDS区
ORF and CDS
4️⃣ 核酸序列特征分析(1):开放阅读框识别

软件说明书：https://github.com/TransDecoder/TransDecoder/wiki

1 TransDecoder 基于以下标准识别可能的编码序列：

在转录本序列中需要能够找到一个（满足）最小（限定）长度的ORF;
对数似然数得分大于0。（与GeneID软件计算得到的得分相类似）;
第一阅读框的对数似然数打分同其它5个阅读框比较为最大值时;
如果候选的ORF完全被包含在其它候选ORF的框架内，那么报告最长的ORF。否则，一个单独的转录本会得到多个ORF的报告。（考虑到有操纵子、嵌合体等情况）;
作为可选项，预测出的多肽在Pfam domain库中存在比对分值高于得分阈值之上的。
该软件主要由Broad Institute的Brian Haas和Commonwealth Scientific and Industrial Research Organisation的Alexie Papanicolaou维护。它被整合在其它相关的软件中：Trinity，PASA，EVidenceModeler和Trinotate。

1.1 TransDecoder的使用

TransDecoder通过运行一个包含目的转录本序列的fasta文件来实现功能。简单的用法如下：

# Step 1: 提取最长的开放阅读框

TransDecoder.LongOrfs -t target_transcripts.fasta  -O .

默认情况下，TransDecoder.LongOrfs将识别长度至少为100个氨基酸的开放阅读框。你可以通过-m参数来降低这个值，但是要知道随着最小长度的变短，ORF预测的假阳性率迅速增长。

# Step 2: (可选)
可选地，可以通过blast或者pfam搜索已知蛋白的同源序列来识别ORF。见下面的Including homology searches as ORF retention criteria章节。

# Step 3: 预测可能的编码区

TransDecoder.Predict -t target_transcripts.fasta -O .

如果转录本按照有义链进行了调整，那么使用-S标记来只检查top链。完整的使用信息见后面。

候选编码区的最终集合可以在文件.transdecoder中找到。扩展名包括.pep，.cds，.gff3和.bed。

1.2 输出文件说明

longest_orfs.pep : 所有达到最小长度标准的ORF, 不管是否编码

longest_orfs.gff3 : 在目的转录本中发现的所有ORF的位置

longest_orfs.cds : 所有检测到的ORF的核酸编码序列

longest_orfs.cds.top_500_longest : 前500个最长的ORF，用于训练一个编码序列的马尔科夫模型

hexamer.scores : 每个k-mer的对数似然得分 (coding/random)

longest_orfs.cds.scores : 每个ORF同6个阅读框间对数似然得分的总和

longest_orfs.cds.scores.selected : 根据得分标准所选出的ORF

longest_orfs.cds.best_candidates.gff3 : 转录本中选出的ORF的位置

然后，最后的输出文件在你当前的工作目录中。

transcripts.fasta.transdecoder.pep : 最终候选ORF的蛋白质序列；所有较长ORF中的较短的候选序列已被移除。

transcripts.fasta.transdecoder.cds : 最终候选ORF的编码区的核酸序列。

transcripts.fasta.transdecoder.gff3 : 最终被选中的ORF在目的转录本中的位置

transcripts.fasta.transdecoder.bed : 用来描述ORF位置的bed格式文件，最好用GenomeView或IGV来查看。

1.3 其中transcripts.fasta.transdecoder.pep文件的内容：


$ less transcripts.fasta.transdecoder.pep
>TRINITY_DN107_c0_g1_i1.p1 TRINITY_DN107_c0_g1~~TRINITY_DN107_c0_g1_i1.p1  ORF type:internal len:175 (+),score=164.12 TRINITY_DN107_c0_g1_i1:2-523(+)
VPLYQHLADLSDSKTSPFVLPVPFLNVLNGGSHAGGALALQEFMIAPTGAKSFREAMRIG
SEVYHNLKSLTKKRYGSSAGNVGDEGGVAPDIQTAEEALDLIVDAIKAAGHEGKVKIGLD
CASSEFFKDGKYDLDFKNPNSDASKWLSGPQLADLYHSLVKKYPIVSIEDPFAE
>TRINITY_DN10_c0_g1_i1.p2 TRINITY_DN10_c0_g1~~TRINITY_DN10_c0_g1_i1.p2  ORF type:internal len:158 (-),score=122.60 TRINITY_DN10_c0_g1_i1:2-472(-)
TDQDKRYQAKMGKSHGYRSRTRYMFQRDFRKHGAIALSTYLKVYKVGDIVDIKANGSIQK
GMPHKFYQGKTGVVYNVTKSSVGVIVNKMVGNRYLEKRLNLRVEHVKHSKCRQEFLDRVK
SNAAKRAEAKAQGKAVQLKRQPAQPREARVVSTEGNV

文件中：header行包含了蛋白的ID信息、原始转录本ID信息、type信息、长度、正负链、打分信息、ORF坐标信息

其中type信息可能会出现：

complete：包含起始、终止密码子
5prime_partial：可能是N端的一部分，但丢失起始密码子
3prime_partial：可能是C端的一部分，但丢失终止密码子
internal：既有N端又有C端的部分

2 将直系同源搜索作为ORF的保留标准

为进一步最大化捕捉具有功能意义的ORF的敏感度，可以像之前提到的不管编码似然得分，你可以扫描所有与已知蛋白同源的ORF并保留这类ORF。这可以通过两种方法做到：用BLAST搜索已知蛋白的数据库进，以及搜索PRAM来识别共同的蛋白质结构域。在TransDecoder中是按照如下方式完成的。

2.1 BlastP搜索

使用BLAST+搜索一个蛋白质数据库，诸如Swissprot（较快）or Uniref90 （较慢但更全面）。

一个示例命令就像这样：

blastp -query transdecoder_dir/longest_orfs.pep -db uniprot_sprot.fasta -max_target_seqs 1 -outfmt 6 -evalue 1e-5 -num_threads 10 > blastp.outfmt6

2.2 Pfam搜索

使用Pfam搜索多肽的蛋白质结构域。这需要安装hmmer3和Pfam数据库。

hmmscan –cpu 8 –domtblout pfam.domtblout /path/to/Pfam-A.hmm transdecoder_dir/longest_orfs.pep

就像BLAST搜索中那样，如果你可以使用计算集群，考虑使用HPC GridRunner。

将Blast和Pfam搜索结果整合到编码区域选择

TransDecoder借助上面生成的输出结果来确定将这些被blast命中的和结构域命中的多肽保留在报告的编码区集合中。像这样运行TransDecoder.Predict：

TransDecoder.Predict -t target_transcripts.fasta –retain_pfam_hits pfam.domtblout –retain_blastp_hits blastp.outfmt6

最终的编码区预测结果将包含与编码区域一致的序列字符以及blast得到的直系同源结果或pfam结构域的内容。

参考来源：TransDecoder识别转录本中编码区并预测蛋白

网友评论

生信

本文标题：TransDecoder软件预测转录本ORF阅读框和编码区

本文链接：https://www.haomeiwen.com/subject/txhdlltx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！