全长转录本的鉴定

作者: 生信阿拉丁 | 来源:发表于2020-05-22 21:45 被阅读0次

    作者:Arno
    审稿:童蒙
    编辑:angelica

    全长转录组测序(Isoform-sequencing,Iso-seq)基于PacBio单分子实时测序技术(SMRT cell),凭借超长读长的优势,建库过程中无需打断RNA分子,直接对反转录的全长cDNA测序,得到从5’末端到3’PolyA尾的高质量全长转录本序列,且目前其CCS模式可以达到超高的准确率,可用来进行转录本鉴定、融合基因、可变剪切、精确地分析转录本的结构等分析。

    全长转录组的文库结构

    通过调取polyA尾的全长转录本序列,经反转录成cDNA之后,经过一定规模的扩增,然后进行cDNA损伤修复、末端修复、接头连接、外切酶处理等过程构建Iso-seq RNA文库,其文库构建过程如图一所示。

    图一:Iso-seq文库构建过程

    构建后的哑铃型文库包含测序接头、引物、barcode以及插入片段,如图二所示:

    图二:Iso-seq文库结构

    测序模式

    PacBio根据其文库片段长度分为两种模式测序:

    其一为CLR模式,对于较长的插入片段,DNA聚合酶的活性不足以支撑合成完全部插入片段,或者仅能合成完一圈多,得到的polymerase reads去除测序接头即为最长subreads;

    第二种是CCS模式,对于较短的插入片段,DNA聚合酶的活性可以支撑合成多圈插入片段,此时去除完接头后即为完整的全长的插入片段,同一ZMW孔可产出多个subreads,对subreads进行相互的校验可以得到一致性序列,即CCS(Circular Consensus Sequencing)序列,其10X的准确率可达99.9%,30X可达99.999%。

    转录本鉴定

    完整的插入片段序列(Reads of Insert,ROI)一般具有以下特征:包含5’primer、3’primer,且3’primer前存在polyA序列,即Iso-seq文库结构图所示。

    因此,理论上我们需要鉴定有这些特征的CCS即可,但实际上,建库过程中会产生嵌合体等非我们需要的序列,需要去过滤掉,整体的转录本鉴定流程可参考图三所示。具体鉴定过程以及实践如下步骤所示。

    图三:转录本鉴定流程图

    Step1.Consensus generation

    SMRT cell测序下机后经 smrtlink server初级处理,会将polymerase reads去除接头低质量序列等,转为subreads序列。

    具体的用于后续分析的文件为:
    movie.subreads.bam
    movie.subreads.bam.pbi
    movie.subreadset.xml

    通过smrttools的ccs工具将subreads.bam转为ccs.bam,具体命令如下:

    ~/software/smrttools/smrtcmds/bin/ccs movieX.subreads.bam movieX.ccs.bam --min-rq 0.9 # 还可指定--min-passes以及线程数--num-threads
    此过程比较耗费资源与时间,如果资源充足,想快速完成ccs的转换,可以对bam文件进行切割,分开转ccs,最后再合并。以下提供了两种并行转ccs的方式,供参考。

    ## step1. 拆分subreads.bam文件
    ~/software/smrttools/smrtcmds/bin/bamsieve movie.subreads.bam --show-zmws > ZMWs.xls
    split ZMWs.xls -l 200000 -d -a 4 data_
    for i in `ls data_*`;do echo ~/software/smrttools/smrtcmds/bin/bamsieve m64118_200224_124115.subreads.bam $i.bam --whitelist $i;done >split.sh
    less split.sh|while read dd;do qsub -cwd -l vf=60G,p=10 -q jisuan.q $dd;done
    ## step2. 并行转ccs
    for i in `ls data_*`;do echo ~/smrttools/smrtcmds/bin/ccs $i.bam ccs_$i.bam --min-rq 0.9 --min-passes 1 --num-threads 30;done >ccs.sh
    less ccs.sh|while read dd;do qsub -cwd -l vf=20G,p=30 -q jisuan.q $dd;done
    ## step3. 合并ccs.bam,可使用samtools或pbmerge
    samtools merge movieX.ccs.bam ccs_data_00*.bam
    pbmerge -o movieX.ccs.bam ccs_data_00*.bam
    ## step1. 并行转ccs
    ccs movieX.subreads.bam movie.ccs.1.bam --chunk 1/10 -j 303ccs movieX.subreads.bam movie.ccs.2.bam --chunk 2/10 -j 30
    ...
    ccs movieX.subreads.bam movie.ccs.10.bam --chunk 10/10 -j 30
    ## step2. merge
    samtools merge movieX.ccs.bam movieX.ccs.*.bam
    pbmerge -o movieX.ccs.bam movieX.ccs.*.bam
    

    Step2. Primer Removal

    获得CCS序列之后,首先需要去掉文库构建过程中的5’和3’测序引物,如果带有barcode,同时也需要去除barcode序列,具体操作可按如下方式:

    ~/smrttools/smrtcmds/bin/lima movieX.ccs.bam barcoded_primers.fasta movieX.fl.bam --isoseq --peek-guess
    其中primer及barcode的格式如下,标签名称必须以“5p”,“3p“结尾,如果有多个3p barcode序列(即包含多个样本),则会同时按照此barcode序列进行拆分,拆分以及去除完引物之后会得到各自样本的bam文件。

    文件名称包含引物序列标签:
    movieX.fl.primer_5p--test1_3p.bam
    movieX.fl.primer_5p--test2_3p.bam

    1>primer_5p
    2AAGCAGTGGTATCAACGCAGAGTACATGGGG
    3>test1_3p
    4CGCACTCTGATATGTGGTACTCTGCGTTGATACCACTGCTT
    5>test2_3p
    6CTCACAGTCTGTGTGTGTACTCTGCGTTGATACCACTGCTT
    

    Step3. Isoseq3 refine

    转录组文库在构建过程中可能会产生嵌合体,即同一个ZMW中两个转录本嵌合到一起。这种嵌合体的出现主要由以下两种情况产生:

    • 其一是文库制备阶段,adapter序列错误地将两条转录本的序列连接构成了一个环状分子,这种情况一般和adapter浓度有关。
    • 其二是在逆转录PCR反应中,因不完全延伸的产物作为了下次扩增反应的引物,从而出现嵌合体。

    鉴于此,这一步需要做的就是对拆分完且去除完引物的CCS序列,进一步过滤,去除嵌合体序列。

    ~/software/smrtlink/smrtlink_8.0.0.80529/smrtcmds/bin/isoseq3 refine movieX.fl.primer_5p--test1_3p.bam movieX.flnc.bam --require-polya --num-threads 20

    Step4. Isoseq3 cluster & Polish

    由于一个ZMW孔会产生一个转录本序列,即一个CCS,所以不同的CCS可能会是相同的转录本序列,即存在冗余的情况,因此需要再通过聚类(cluster)的方式,对全长转录本序列进行聚类,得到一致性的转录本序列。

    Polish纠错是为了进一步提升转录本中碱基的质量,但是这一过程也是非常耗时,目前smrtlink v8版本及以上可以不必进行Polish,即可获得准确度大于0.99的高质量转录本(high-quality isoforms,HQ),和低质量转录本(low-quality isoforms,LQ)。

    ~/software/smrtlink/smrtlink_8.0.0.80529/smrtcmds/bin/isoseq3 cluster movieX.flnc.bam clustered.bam --verbose --num-threads 20 --use-qvs
    
    ~/software/smrtlink/smrtlink_8.0.0.80529/smrtcmds/bin/isoseq3 polish clustered.bam subreads.bam polished.bam # 非必须
    

    以上步骤即可得到高质量的转录本序列,其输出结果有如下一些文件。

    后续可用polished.hq.fasta.gz进行比对分析等。

     polished.bam
     polished.bam.pbi
     polished.cluster
     polished.cluster_report.csv
     polished.hq.bam
     polished.hq.bam.pbi
     polished.hq.fasta.gz
     polished.lq.bam
     polished.lq.bam.pbi
     polished.lq.fasta.gz
     polished.transcriptset.xml
    

    总结

    全长转录本的鉴定是Iso-seq分析最重要的一步,鉴定出的转录本的质量也决定了后续分析的质量,高质量的转录本可以对转录本的结构进行精确的分析,当然也取决于后续的比对。

    随着三代测序技术的发展,目前其准确度也已经可以KO普通的转录组分析了,如果你还不了解三代转录组的分析内容可以关注我们,希望可以让你学到更多。

    参考资料
    https://github.com/PacificBiosciences/IsoSeq
    https://www.cnblogs.com/xudongliang/p/7473463.html

    相关文章

      网友评论

        本文标题:全长转录本的鉴定

        本文链接:https://www.haomeiwen.com/subject/ojiiihtx.html