全基因组 - 人类基因组变异分析(PacBio) (2)-- C

作者: 三代测序说 | 来源:发表于2023-10-18 17:02 被阅读0次

一、基因组 PacBio SMRTbell文库的构建流程

1. PacBio SMRTbell 文库的结构

PacBio测序平台构建完成的测序文库形状就如同一个哑铃(Dumbell), 所以叫做SMRT bell, 图1右所示。其主要组成部分是:发卡状的接头(Hairpin Adapter)和双链DNA模板(Double Stranded DNA Template)。而文构建完成后、测序前还需要完成SMRT bell文库、Sequencing Primer、DNA Polymerase的混合工作(测序引物退火结合环装测序接头,然后引物-bell文库复合物结合DNA聚合酶, 图1右和图2所示。

图1. 基因组SMRTbell文库结构及构建流程
图2. SMRTbell文库测序引物和DNA聚合酶

2. 基因组SMRTbell文库构建流程

以基因组HiFi文库为例(10-20Kb文库 ) ,图1左所示:

1)通过核酸提取得到基因组DNA(gDNA)后,先利用G-tube管或Megaruptor System将基因组片段化至合适大小 (一般动植物基因组20 Kb建库,微生物基因组10 Kb建库);



4)完成接头连接后,需要对连接产物进行纯化,利用酶处理来消化线性或内部损伤环形DNA分子(游离的Hairpin Adapter、两端未连接Adapter的DNA模板、已成环但内部有损伤的DNA模板),酶处理完毕后,一般会利用Bulepippin或Sage ELF System切胶回收目标大小范围内的文库。

二、PacBio Subreads and HiFi reads

HiFi reads(High Fidelity reads)是2019年由PacBio推出的基于环化共有序列(Circular Consensus Sequencing,CCS)模式产生的既兼顾长读长(~10-20 kb)又具有高精度(>99%准确率)的测序序列数据 (图3)。

图3. HiFi reads 既长又准确

对于一条待测序的DNA片段,在CCS测序模式下,酶读长(polymoerase read)远大于插入片段长度,聚合酶会绕着DNA模板进行滚环测序,其中插入目的片段会被多次重复测序。单次测序中产生的随机测序错误,通过环形测序生成的一系列冗余的Subreads来进行自我矫正。通过PacBio公司开发的CCS算法进行自我纠错校正后,最终得到一条高准确度的CCS read, 因为每个碱基的测序质量较高,所以称为HiFi read (图4)。

图4. HiFi reads 的概念以产生过程

三、PacBio Subreads 数据到 HiFi reads数据

Pacbio Sequel II 平台早期支持CLR(Continuous Long Reads)和CCS(Circular Consensus Sequencing)两种测序方式。 CLR模式适用超长片段文库(> 25 kb),对下机的subreads数据不再进行后续处理,可以直接使用,用作下游分析的原始数据,唯一的缺点就是每条reads准确度低一些。

从2022年下半年起,最新的建库试剂盒SMRTbell prep kit 3.0 舍弃了CLR模式,全部采用CCS建库测序模式,所以下机的subreads都要经过CCS算法将subreads去冗余转化为HiFi reads。对于Pacbio Sequel II 平台的用户,下机的subreads数据需要在服务器用SMRTlink软件里的CCS程序 或者 自己运行单独安装CCS软件进行HiFi reads的转换。对于Pacbio Sequel IIe 和 Revio平台,因为测序仪器本身内置了计算服务器,可以在运行测序前通过SMRTlink设置,下机直接得到HiFi reads的数据。

所以在大家拿到PacBio测序数据时,例如下载公共数据尤其是早期数据时,一定要弄清楚是subreads,还是HiFi reads。对于近期从测序服务商那里得到的数据一般都是运行完CCS软件后的HiFi reads。

对于自己有PacBio仪器的,并且服务器配置SMRTlink软件的用户,可以直接在SMRTlink中运行CCS(Circular Consensus Sequencing)程序,运行完成以后,你还会在SMRTlink里面得到CCS分析报告,会给出HiFi reads的信息以及可视化图的统计信息展示。





1. 确保已经安装miniconda

$ conda install -c bioconda pbccs

#Version 6.4.0

2. 软件的运行

Pacbio Sequel II平台的下机数据为bam格式, bam文件可直接适配大多数的下游分析软件,存储有效数据的文件一般命名为: *.subreads.bam, *.subreads.bam.pbi

输入文件sample.subreads.bam 以及相对应的索引sample.subreads.bam.pbi
输出文件unaligned BAM (.bam);bgzipped FASTQ (.fastq.gz)


#生成 .bam 文件
$ ccs  sample.subreads.bam  sample.ccs.bam

#生成 .fastq.gz 文件
$ ccs  sample.subreads.bam  sample.hifi.fastq.gz


$ ccs  --min-rq  0.99 --min-passes 3 -j 12  sample.subreads.bam  sample.ccs.bam

#生成 .fastq.gz 文件
$ ccs  --min-rq  0.999 --min-passes 5  -j 24  sample.subreads.bam  sample.hifi.fastq.gz

-j  12    CPU线程数
--min-passes 3     最少产生CCS read 的subreads数,默认是3.
--min-rq  0.99       碱基准确度,默认为0.99,等于Q20.
--min-length         最小reads长度,默认为10.
--max-length        最大reads长度,默认为50000.

CCS --help 文档及参数,如果有需要可以自行修改:

ccs - Generate circular consensus sequences (ccs) from subreads.

  ccs [options] <IN.subreads.bam|xml> <OUT.ccs.bam|fastq.gz|xml>

  IN.subreads.bam|xml       FILE   Subreads (.subreads.bam or .subreadset.xml).
  OUT.ccs.bam|fastq.gz|xml  FILE   Consensus reads (.bam, .fastq.gz, or .consensusreadset.xml).

Input Filter Options:
  --min-passes              INT    Minimum number of full-length subreads required to generate CCS for a ZMW. [3]
  --min-snr                 FLOAT  Minimum SNR of subreads to use for generating CCS [2.5]
  --top-passes              INT    Pick at maximum the top N passes for each ZMW. [60]

Draft Filter Options:
  --min-length              INT    Minimum draft length before polishing. [10]
  --max-length              INT    Maximum draft length before polishing. [50000]

Chunking Options:
  --chunk                   STR    Operate on a single chunk. Format i/N, where i in [1,N]. Examples: 3/24 or 9/9
  --max-chunks                     Determine maximum number of chunks.

Model Override Options:
  --model-path              STR    Path to a chemistry model file or directory containing model files.
  --model-spec              STR    Name of chemistry or model to use, overriding default selection.

Processing Options:
  --by-strand                      Generate a consensus for each strand.
  --hd-finder                      Enable heteroduplex finder and splitting
  --skip-polish                    Only output the initial draft template (faster, less accurate).
  --all                            Emit all ZMWs.
  --subread-fallback               Emit a representative subread, instead of the draft consensus, if polishing failed.
  --all-kinetics                   Calculate mean pulse widths (PW) and interpulse durations (IPD) for every ZMW.
  --hifi-kinetics                  Calculate mean pulse widths (PW) and interpulse durations (IPD) for every HiFi read.

Output Filter Options:
  --min-rq                  FLOAT  Minimum predicted accuracy in [0, 1]. [0.99]

Output Files Options:
  --report-file             FILE   Where to write the results report.
  --report-json             FILE   Where to write the results report as json.
  --metrics-json            FILE   Where to write the zmw metrics as json.
  --suppress-reports               Do not generate report or metric files per default, only those requested.

  -h,--help                        Show this help and exit.
  --version                        Show application version and exit.
  -j,--num-threads          INT    Number of threads to use, 0 means autodetection. [0]
  --log-level               STR    Set log level. Valid choices: (TRACE, DEBUG, INFO, WARN, FATAL). [WARN]
  --log-file                FILE   Log to a file, instead of stderr.

Copyright (C) 2004-2022     Pacific Biosciences of California, Inc.
This program comes with ABSOLUTELY NO WARRANTY; it is intended for
Research Use Only and not for use in diagnostic procedures.


对于polymerase read, subreads,CCS的英文原版解释。




