美文网首页
全基因组 - 人类基因组变异分析(PacBio) (2)-- C

全基因组 - 人类基因组变异分析(PacBio) (2)-- C

作者: 三代测序说 | 来源:发表于2023-10-18 17:02 被阅读0次

    一、基因组 PacBio SMRTbell文库的构建流程

    1. PacBio SMRTbell 文库的结构

    PacBio测序平台构建完成的测序文库形状就如同一个哑铃(Dumbell), 所以叫做SMRT bell, 图1右所示。其主要组成部分是:发卡状的接头(Hairpin Adapter)和双链DNA模板(Double Stranded DNA Template)。而文构建完成后、测序前还需要完成SMRT bell文库、Sequencing Primer、DNA Polymerase的混合工作(测序引物退火结合环装测序接头,然后引物-bell文库复合物结合DNA聚合酶, 图1右和图2所示。

    图1. 基因组SMRTbell文库结构及构建流程
    图2. SMRTbell文库测序引物和DNA聚合酶

    2. 基因组SMRTbell文库构建流程

    以基因组HiFi文库为例(10-20Kb文库 ) ,图1左所示:

    1)通过核酸提取得到基因组DNA(gDNA)后,先利用G-tube管或Megaruptor System将基因组片段化至合适大小 (一般动植物基因组20 Kb建库,微生物基因组10 Kb建库);

    2)通过去除单链悬突、损伤修复和末端修复等步骤,得到完整的双链DNA插入片段;

    3)通过将SMRTbell接头连接至双链DNA的两端来创构建SMRTbell测序文库,从而得到环状模板。

    4)完成接头连接后,需要对连接产物进行纯化,利用酶处理来消化线性或内部损伤环形DNA分子(游离的Hairpin Adapter、两端未连接Adapter的DNA模板、已成环但内部有损伤的DNA模板),酶处理完毕后,一般会利用Bulepippin或Sage ELF System切胶回收目标大小范围内的文库。

    二、PacBio Subreads and HiFi reads

    HiFi reads(High Fidelity reads)是2019年由PacBio推出的基于环化共有序列(Circular Consensus Sequencing,CCS)模式产生的既兼顾长读长(~10-20 kb)又具有高精度(>99%准确率)的测序序列数据 (图3)。

    图3. HiFi reads 既长又准确

    对于一条待测序的DNA片段,在CCS测序模式下,酶读长(polymoerase read)远大于插入片段长度,聚合酶会绕着DNA模板进行滚环测序,其中插入目的片段会被多次重复测序。单次测序中产生的随机测序错误,通过环形测序生成的一系列冗余的Subreads来进行自我矫正。通过PacBio公司开发的CCS算法进行自我纠错校正后,最终得到一条高准确度的CCS read, 因为每个碱基的测序质量较高,所以称为HiFi read (图4)。

    图4. HiFi reads 的概念以产生过程

    三、PacBio Subreads 数据到 HiFi reads数据

    Pacbio Sequel II 平台早期支持CLR(Continuous Long Reads)和CCS(Circular Consensus Sequencing)两种测序方式。 CLR模式适用超长片段文库(> 25 kb),对下机的subreads数据不再进行后续处理,可以直接使用,用作下游分析的原始数据,唯一的缺点就是每条reads准确度低一些。

    从2022年下半年起,最新的建库试剂盒SMRTbell prep kit 3.0 舍弃了CLR模式,全部采用CCS建库测序模式,所以下机的subreads都要经过CCS算法将subreads去冗余转化为HiFi reads。对于Pacbio Sequel II 平台的用户,下机的subreads数据需要在服务器用SMRTlink软件里的CCS程序 或者 自己运行单独安装CCS软件进行HiFi reads的转换。对于Pacbio Sequel IIe 和 Revio平台,因为测序仪器本身内置了计算服务器,可以在运行测序前通过SMRTlink设置,下机直接得到HiFi reads的数据。

    所以在大家拿到PacBio测序数据时,例如下载公共数据尤其是早期数据时,一定要弄清楚是subreads,还是HiFi reads。对于近期从测序服务商那里得到的数据一般都是运行完CCS软件后的HiFi reads。

    对于自己有PacBio仪器的,并且服务器配置SMRTlink软件的用户,可以直接在SMRTlink中运行CCS(Circular Consensus Sequencing)程序,运行完成以后,你还会在SMRTlink里面得到CCS分析报告,会给出HiFi reads的信息以及可视化图的统计信息展示。

    下面的教程呢,是我们没有测序仪器和安装配置SMRTlink软件,但又想单独在自己的服务器或者高性能工作站上安装CCS程序并且运行的同学和老师准备的。

    四、CCS程序的安装和使用

    CCS官网:https://ccs.how/

    CCS官网(github):https://github.com/PacificBiosciences/ccs

    1. 确保已经安装miniconda

    #直接使用conda安装最新版本的pbccs
    $ conda install -c bioconda pbccs
    
    #Version 6.4.0
    

    2. 软件的运行

    Pacbio Sequel II平台的下机数据为bam格式, bam文件可直接适配大多数的下游分析软件,存储有效数据的文件一般命名为: *.subreads.bam, *.subreads.bam.pbi

    输入文件sample.subreads.bam 以及相对应的索引sample.subreads.bam.pbi
    输出文件unaligned BAM (.bam);bgzipped FASTQ (.fastq.gz)

    基础使用,全部参数默认:

    #生成 .bam 文件
    $ ccs  sample.subreads.bam  sample.ccs.bam
    
    #生成 .fastq.gz 文件
    $ ccs  sample.subreads.bam  sample.hifi.fastq.gz
    
    

    进阶使用:

    #生成.bam文件
    $ ccs  --min-rq  0.99 --min-passes 3 -j 12  sample.subreads.bam  sample.ccs.bam
    
    #生成 .fastq.gz 文件
    $ ccs  --min-rq  0.999 --min-passes 5  -j 24  sample.subreads.bam  sample.hifi.fastq.gz
    
    #以下是经常会设置参数,根据数据和应用的需求自行调整,剩下的参数默认即可。
    -j  12    CPU线程数
    --min-passes 3     最少产生CCS read 的subreads数,默认是3.
    --min-rq  0.99       碱基准确度,默认为0.99,等于Q20.
    --min-length         最小reads长度,默认为10.
    --max-length        最大reads长度,默认为50000.
    
    

    CCS --help 文档及参数,如果有需要可以自行修改:

    ccs - Generate circular consensus sequences (ccs) from subreads.
    
    Usage:
      ccs [options] <IN.subreads.bam|xml> <OUT.ccs.bam|fastq.gz|xml>
    
      IN.subreads.bam|xml       FILE   Subreads (.subreads.bam or .subreadset.xml).
      OUT.ccs.bam|fastq.gz|xml  FILE   Consensus reads (.bam, .fastq.gz, or .consensusreadset.xml).
    
    
    Input Filter Options:
      --min-passes              INT    Minimum number of full-length subreads required to generate CCS for a ZMW. [3]
      --min-snr                 FLOAT  Minimum SNR of subreads to use for generating CCS [2.5]
      --top-passes              INT    Pick at maximum the top N passes for each ZMW. [60]
    
    Draft Filter Options:
      --min-length              INT    Minimum draft length before polishing. [10]
      --max-length              INT    Maximum draft length before polishing. [50000]
    
    Chunking Options:
      --chunk                   STR    Operate on a single chunk. Format i/N, where i in [1,N]. Examples: 3/24 or 9/9
      --max-chunks                     Determine maximum number of chunks.
    
    Model Override Options:
      --model-path              STR    Path to a chemistry model file or directory containing model files.
      --model-spec              STR    Name of chemistry or model to use, overriding default selection.
    
    Processing Options:
      --by-strand                      Generate a consensus for each strand.
      --hd-finder                      Enable heteroduplex finder and splitting
      --skip-polish                    Only output the initial draft template (faster, less accurate).
      --all                            Emit all ZMWs.
      --subread-fallback               Emit a representative subread, instead of the draft consensus, if polishing failed.
      --all-kinetics                   Calculate mean pulse widths (PW) and interpulse durations (IPD) for every ZMW.
      --hifi-kinetics                  Calculate mean pulse widths (PW) and interpulse durations (IPD) for every HiFi read.
    
    Output Filter Options:
      --min-rq                  FLOAT  Minimum predicted accuracy in [0, 1]. [0.99]
    
    Output Files Options:
      --report-file             FILE   Where to write the results report.
      --report-json             FILE   Where to write the results report as json.
      --metrics-json            FILE   Where to write the zmw metrics as json.
      --suppress-reports               Do not generate report or metric files per default, only those requested.
    
      -h,--help                        Show this help and exit.
      --version                        Show application version and exit.
      -j,--num-threads          INT    Number of threads to use, 0 means autodetection. [0]
      --log-level               STR    Set log level. Valid choices: (TRACE, DEBUG, INFO, WARN, FATAL). [WARN]
      --log-file                FILE   Log to a file, instead of stderr.
    
    Copyright (C) 2004-2022     Pacific Biosciences of California, Inc.
    This program comes with ABSOLUTELY NO WARRANTY; it is intended for
    Research Use Only and not for use in diagnostic procedures.
    
    

    五、CCS测序模式相关词汇英文解释

    对于polymerase read, subreads,CCS的英文原版解释。


    CCS测序模式相关词汇英文解释

    相关文章

      网友评论

          本文标题:全基因组 - 人类基因组变异分析(PacBio) (2)-- C

          本文链接:https://www.haomeiwen.com/subject/ztkqidtx.html