美文网首页转录组数据分析
根据转录本寻找可能的生物学功能信息

根据转录本寻找可能的生物学功能信息

作者: 刘小泽 | 来源:发表于2019-02-17 21:36 被阅读37次

    刘小泽写于19.2.17
    依然是很容易上手的小工具
    得到了组装的转录本,就可以根据这个去找潜在的生物学相关信息,比如编码区预测、注释等

    利用TransDecoder 这个工具可以在转录本序列中寻找潜在的编码区,它先找到长的开放阅读框区域(ORFs)

    TransDecoder.LongOrfs -t Trinity.fasta
    

    然后根据序列组成打分

    TransDecoder.Predict -t Trinity.fasta 
    

    结果会得到一些带有transdecoder字符的文件

    Trinity.fasta.transdecoder.bed
    Trinity.fasta.transdecoder.cds
    Trinity.fasta.transdecoder.gff3
    Trinity.fasta.transdecoder.pep
    Trinity.fasta.transdecoder_dir/
    ...
    

    其中最关心的就是:Trinity.fasta.transdecoder.pep ,其中包含了预测的编码区对应的蛋白序列

    $ less Trinity.fasta.transdecoder.pep
    >TRINITY_DN107_c0_g1_i1.p1 TRINITY_DN107_c0_g1~~TRINITY_DN107_c0_g1_i1.p1  ORF type:internal len:175 (+),score=164.12 TRINITY_DN107_c0_g1_i1:2-523(+)
    VPLYQHLADLSDSKTSPFVLPVPFLNVLNGGSHAGGALALQEFMIAPTGAKSFREAMRIG
    SEVYHNLKSLTKKRYGSSAGNVGDEGGVAPDIQTAEEALDLIVDAIKAAGHEGKVKIGLD
    CASSEFFKDGKYDLDFKNPNSDASKWLSGPQLADLYHSLVKKYPIVSIEDPFAE
    >TRINITY_DN10_c0_g1_i1.p2 TRINITY_DN10_c0_g1~~TRINITY_DN10_c0_g1_i1.p2  ORF type:internal len:158 (-),score=122.60 TRINITY_DN10_c0_g1_i1:2-472(-)
    TDQDKRYQAKMGKSHGYRSRTRYMFQRDFRKHGAIALSTYLKVYKVGDIVDIKANGSIQK
    GMPHKFYQGKTGVVYNVTKSSVGVIVNKMVGNRYLEKRLNLRVEHVKHSKCRQEFLDRVK
    SNAAKRAEAKAQGKAVQLKRQPAQPREARVVSTEGNV
    

    这个文件中:header行包含了蛋白的ID信息、原始转录本ID信息、type信息、长度、正负链、打分信息、ORF坐标信息

    其中type信息可能会出现:

    • complete:包含起始、终止密码子
    • 5prime_partial:可能是N端的一部分,但丢失起始密码子
    • 3prime_partial:可能是C端的一部分,但丢失终止密码子
    • internal:既有N端又有C端的部分

    得到的.pep文件可以用于接下来的同源比对

    刚得到转录本时就进行了一次SWISSPROT数据库的比对,目的是找到全长转录本;这里再利用得到的蛋白序列进行同源比对,只不过需要适当降低evalue,因此目前序列较之前转录本少许多

    blastp -query Trinity.fasta.transdecoder.pep \
             -db mini_sprot.pep -num_threads 5 \
             -max_target_seqs 1 -outfmt 6 -evalue 1e-5 \
              > swissprot.blastp.outfmt6
    

    另外可以用HMMER进行一个Pfam比对,找到可能的保守结构域

    hmmscan --cpu 5 --domtblout TrinotatePFAM.out \
              Pfam-A.hmm \
              Trinity.fasta.transdecoder.pep
    

    可以预测下信号肽、跨膜结构域信息

    使用signalp预测信号肽

    signalp -f short -n signalp.out Trinity.fasta.transdecoder.pep
    

    看下结果

    $ less signalp.out
    ##gff-version 2
    ##sequence-name source  feature start   end     score   N/A ?
    ## -----------------------------------------------------------
    TRINITY_DN19_c0_g1_i1|m.141     SignalP-4.0     SIGNAL  1       18      0.553   .       .       YES
    TRINITY_DN33_c0_g1_i1|m.174     SignalP-4.0     SIGNAL  1       19      0.631   .       .       YES
    

    使用wc -l可以看预测了多少的信号肽

    还可以使用tmhmm 预测跨膜结构区域

    关于各种预测的软件信息:http://www.cbs.dtu.dk/services/software.php


    欢迎关注我们的公众号~_~  
    我们是两个农转生信的小硕,打造生信星球,想让它成为一个不拽术语、通俗易懂的生信知识平台。需要帮助或提出意见请后台留言或发送邮件到Bioplanet520@outlook.com

    Welcome to our bioinfoplanet!

    相关文章

      网友评论

        本文标题:根据转录本寻找可能的生物学功能信息

        本文链接:https://www.haomeiwen.com/subject/tauneqtx.html