美文网首页生信生信
转录组分析(5) - 无参转录组拼接(illumina)

转录组分析(5) - 无参转录组拼接(illumina)

作者: 半夜一更 | 来源:发表于2021-03-14 21:00 被阅读0次
    目的

    NGS测序得到的短序列(read)存储于Fastq文件,在经过DNA建库和测序之后,文件中不同read之间的顺序就全部丢失了。因此,Fastq文件中紧挨着的两条read之间没有任何位置关系,它们都是随机来自于原本基因组中某个位置的短序列而已。因此我们无法判断Fastq文件中reads间的顺序关系。比对就是把每一条read分别与该物种的参考基因组或自身组装的长序列进行比较,然后按顺序排列整齐并记录其对应的位置。

    做法

    对于没有参考基因组的物种进行转录组测序,需要首先对测序reads进行拼接,然后才能进行比对这一过程。

    Trinity是一种针对无参考基因组RNA-Seq数据构建转录本的工具,目前已经成为无参转录组拼接的首选方法。Trinity分为3个模块,分别为:Inchworm、Chrysalis和Butterfly。InchWorm模块将测序得到的reads按照kmer的方法连接成线性序列,Chysalis模块根据线性序列的重叠区建立graph components,最后Butterfly模块应用De Brujin graph方法拼接得到转录本。在Trinity拼接结果中,选取每个基因中长度最长的转录本作为Unigene,该Unigene就可以代表该基因的转录本用于后续的功能注释和表达量计算。 Trinity原理.png
    安装

    编译安装:
    Trinity下载页面下载最新版本

    wget https://github.com/trinityrnaseq/trinityrnaseq/releases/download/v2.12.0/trinityrnaseq-v2.12.0.FULL.tar.gz
    tar -zxvf trinityrnaseq-v2.12.0.FULL.tar.gz
    # 在基本安装目录中通过 make来编译安装Trinity
    

    Anaconda 安装

    conda activate py3
    conda search trinity
    conda install trinity
    
    使用
    Trinity --seqType fq --left reads_1.fq --right reads_2.fq --CPU 6 --max_memory 20G 
    

    组装拼接结果保存在./trinity_out_dir/Trinity.fasta文件中,该结果用于后续的功能注释和表达量计算。

    相关文章

      网友评论

        本文标题:转录组分析(5) - 无参转录组拼接(illumina)

        本文链接:https://www.haomeiwen.com/subject/dmuxcltx.html