美文网首页生信专题三代转录组组装
pacbio 三代全长转录组数据分析流程

pacbio 三代全长转录组数据分析流程

作者: 生信小院 | 来源:发表于2020-10-08 22:51 被阅读0次

    Iso-seq基础概念,转载自https://blog.csdn.net/weixin_34384681/article/details/85937505
    Iso-seq , 全称叫做 Isoform-sequencing, 是 Pacbio 公司对自己开发的转录本测序技术的规范化命名;是利用三代测序长读长的特点,不打断转录本,直接测序,从而得到全长转录本的一种测序技术。

    1)ROI

    了解过三代测序数据分析的人,对于CCS 环形一致性序列的概念肯定不会陌生,在iso-seq中,提出了比CCS 更加灵活的一个概念:ROI

    ROI , 全称 reads of insert,可以理解为插入片段,首先看下三代测序文库构建阶段的reads示意图:

    1.png

    对于上述的文库片段,测序产生的reads 示意图如下:

    image

    由于是一个环状分子, 随着测序反应的进行,会循环测序;如果把插入片段的正负链都测了一次,就做1个full pass;

    对于CCS 而言,要求至少有2个full pass , 才能去生成CCS reads; 三代测序的特点就是读长很长,可以达到十几kb, 对于短的插入片段而言,CCS这样定义当然没有问题,但是对于全长转录本

    而言,转录本长度很长,比如转录本长度1kb, 读长3kb, 此时在一个零模波导孔(ZMW)中测序的reads 就不可能达到2个full pass , 也就产生不了CCS reads, 为了解决这个问题,提高reads的利用率,提出了ROI 的概念,ROI 指的就是插入片段,上图测序reads 产生的ROI 如下:

    image

    ROI 不要求满足2个full pass, 相对CCS 而言,更加适合全长转录本的分析;

    2)artifacts

    可以理解为,共有两种来源:

    Artificial Concatemer

    image

    这种序列是由于文库制备阶段,adapter 序列错误的将两条转录本的序列链接构成了一个环状分子,这个和adapter 浓度有关,通常这种reads 产生的比例很少,小于0.5%, 在后续的分析中,这部分reads 需要去除

    PCR Chimera

    image

    在PCR 反应中,由于不完全延伸的产物作为了下次扩增反应的引物,导致出现嵌合体序列,直观上看,就是PCR产物来源于两条或者多条reads;

    PCR 产生的嵌合体序列,在PCR 反应体系中,这种序列是不可避免的,大约有3%的比例,在后续的分析过程中,可以借助软件去除这部分reads;

    1. FL Reads

    FL , Full-length reads, 全长转录本

    从raw data 到 ROI , 在从ROI 去除 artifacts reads 之后,我们就得到了用于后续分析的clean reads;

    clean reads 就已经是转录本的序列了,我们首先看一下clean reads 当中,哪些是全长转录本;哪些不是全长转录本,这个操作就是分类,classify

    全长转录本的示意图如下:

    image

    对于全长转录本而言,其ROI reads 中包含5‘ primer 和 3‘ primer; 而且会出现polyA 为结构;(polyA 针对mRNA和部分lncRNA)

    对于不同大小的文库,其全长转录本的比例也不同:

    image

    可以看到,文库片段越长,全长转录本的比例越低;

    4) consensus transcript isoforms

    一致性转录本序列,一个ZMW 产生一个转录本的reads, 肯定会有冗余的reads 出现,这是通过聚类(cluster)的方式,就全长转录本序列进行聚类,可以得到一致性的转录本序列;

    数据分析流程:https://github.com/PacificBiosciences/IsoSeq/blob/master/isoseq-clustering.md

    image.png

    步骤

    software install

    $ conda install -c isoseq3 bioconda pbccs lima pbcoretools

    Circular Consensus Sequence calling

    $ ccs m54045_190809_102313.subreads.bam m54045.ccs.bam -j 20 --min-rq 0.9


    image.png

    Primer removal and demultiplexing

    $ lima m54045.ccs.bam IsoSeqPrimers.fasta m54045.fl.bam -j 20 --isoseq --peek-guess


    image.png
    image.png

    Refine

    $ isoseq3 refine m54045.fl.primer_5p--primer_3p.bam IsoSeqPrimers.fasta m54045.flnc.bam -j 20 --require-polya


    image.png

    Clustering Parallel Polishing

    $ isoseq3 cluster m54045.flnc.bam clustered.bam --verbose --use-qvs


    image.png

    相关文章

      网友评论

        本文标题:pacbio 三代全长转录组数据分析流程

        本文链接:https://www.haomeiwen.com/subject/tqfyyktx.html