一、基因组 PacBio SMRTbell文库的构建流程
1. PacBio SMRTbell 文库的结构
PacBio测序平台构建完成的测序文库形状就如同一个哑铃(Dumbell), 所以叫做SMRT bell, 图1右所示。其主要组成部分是:发卡状的接头(Hairpin Adapter)和双链DNA模板(Double Stranded DNA Template)。而文构建完成后、测序前还需要完成SMRT bell文库、Sequencing Primer、DNA Polymerase的混合工作(测序引物退火结合环装测序接头,然后引物-bell文库复合物结合DNA聚合酶, 图1右和图2所示。
图1. 基因组SMRTbell文库结构及构建流程图2. SMRTbell文库测序引物和DNA聚合酶
2. 基因组SMRTbell文库构建流程
以基因组HiFi文库为例(10-20Kb文库 ) ,图1左所示:
1)通过核酸提取得到基因组DNA(gDNA)后,先利用G-tube管或Megaruptor System将基因组片段化至合适大小 (一般动植物基因组20 Kb建库,微生物基因组10 Kb建库);
2)通过去除单链悬突、损伤修复和末端修复等步骤,得到完整的双链DNA插入片段;
3)通过将SMRTbell接头连接至双链DNA的两端来创构建SMRTbell测序文库,从而得到环状模板。
4)完成接头连接后,需要对连接产物进行纯化,利用酶处理来消化线性或内部损伤环形DNA分子(游离的Hairpin Adapter、两端未连接Adapter的DNA模板、已成环但内部有损伤的DNA模板),酶处理完毕后,一般会利用Bulepippin或Sage ELF System切胶回收目标大小范围内的文库。
二、PacBio Subreads and HiFi reads
HiFi reads(High Fidelity reads)是2019年由PacBio推出的基于环化共有序列(Circular Consensus Sequencing,CCS)模式产生的既兼顾长读长(~10-20 kb)又具有高精度(>99%准确率)的测序序列数据 (图3)。
图3. HiFi reads 既长又准确对于一条待测序的DNA片段,在CCS测序模式下,酶读长(polymoerase read)远大于插入片段长度,聚合酶会绕着DNA模板进行滚环测序,其中插入目的片段会被多次重复测序。单次测序中产生的随机测序错误,通过环形测序生成的一系列冗余的Subreads来进行自我矫正。通过PacBio公司开发的CCS算法进行自我纠错校正后,最终得到一条高准确度的CCS read, 因为每个碱基的测序质量较高,所以称为HiFi read (图4)。
图4. HiFi reads 的概念以产生过程三、PacBio Subreads 数据到 HiFi reads数据
Pacbio Sequel II 平台早期支持CLR(Continuous Long Reads)和CCS(Circular Consensus Sequencing)两种测序方式。 CLR模式适用超长片段文库(> 25 kb),对下机的subreads数据不再进行后续处理,可以直接使用,用作下游分析的原始数据,唯一的缺点就是每条reads准确度低一些。
从2022年下半年起,最新的建库试剂盒SMRTbell prep kit 3.0 舍弃了CLR模式,全部采用CCS建库测序模式,所以下机的subreads都要经过CCS算法将subreads去冗余转化为HiFi reads。对于Pacbio Sequel II 平台的用户,下机的subreads数据需要在服务器用SMRTlink软件里的CCS程序 或者 自己运行单独安装CCS软件进行HiFi reads的转换。对于Pacbio Sequel IIe 和 Revio平台,因为测序仪器本身内置了计算服务器,可以在运行测序前通过SMRTlink设置,下机直接得到HiFi reads的数据。
所以在大家拿到PacBio测序数据时,例如下载公共数据尤其是早期数据时,一定要弄清楚是subreads,还是HiFi reads。对于近期从测序服务商那里得到的数据一般都是运行完CCS软件后的HiFi reads。
对于自己有PacBio仪器的,并且服务器配置SMRTlink软件的用户,可以直接在SMRTlink中运行CCS(Circular Consensus Sequencing)程序,运行完成以后,你还会在SMRTlink里面得到CCS分析报告,会给出HiFi reads的信息以及可视化图的统计信息展示。
下面的教程呢,是我们没有测序仪器和安装配置SMRTlink软件,但又想单独在自己的服务器或者高性能工作站上安装CCS程序并且运行的同学和老师准备的。
四、CCS程序的安装和使用
CCS官网:https://ccs.how/
CCS官网(github):https://github.com/PacificBiosciences/ccs
1. 确保已经安装miniconda
#直接使用conda安装最新版本的pbccs
$ conda install -c bioconda pbccs
#Version 6.4.0
2. 软件的运行
Pacbio Sequel II平台的下机数据为bam格式, bam文件可直接适配大多数的下游分析软件,存储有效数据的文件一般命名为: *.subreads.bam
, *.subreads.bam.pbi
。
输入文件:sample.subreads.bam
以及相对应的索引sample.subreads.bam.pbi
输出文件:unaligned BAM (.bam)
;bgzipped FASTQ (.fastq.gz)
。
基础使用,全部参数默认:
#生成 .bam 文件
$ ccs sample.subreads.bam sample.ccs.bam
#生成 .fastq.gz 文件
$ ccs sample.subreads.bam sample.hifi.fastq.gz
进阶使用:
#生成.bam文件
$ ccs --min-rq 0.99 --min-passes 3 -j 12 sample.subreads.bam sample.ccs.bam
#生成 .fastq.gz 文件
$ ccs --min-rq 0.999 --min-passes 5 -j 24 sample.subreads.bam sample.hifi.fastq.gz
#以下是经常会设置参数,根据数据和应用的需求自行调整,剩下的参数默认即可。
-j 12 CPU线程数
--min-passes 3 最少产生CCS read 的subreads数,默认是3.
--min-rq 0.99 碱基准确度,默认为0.99,等于Q20.
--min-length 最小reads长度,默认为10.
--max-length 最大reads长度,默认为50000.
CCS --help 文档及参数,如果有需要可以自行修改:
ccs - Generate circular consensus sequences (ccs) from subreads.
Usage:
ccs [options] <IN.subreads.bam|xml> <OUT.ccs.bam|fastq.gz|xml>
IN.subreads.bam|xml FILE Subreads (.subreads.bam or .subreadset.xml).
OUT.ccs.bam|fastq.gz|xml FILE Consensus reads (.bam, .fastq.gz, or .consensusreadset.xml).
Input Filter Options:
--min-passes INT Minimum number of full-length subreads required to generate CCS for a ZMW. [3]
--min-snr FLOAT Minimum SNR of subreads to use for generating CCS [2.5]
--top-passes INT Pick at maximum the top N passes for each ZMW. [60]
Draft Filter Options:
--min-length INT Minimum draft length before polishing. [10]
--max-length INT Maximum draft length before polishing. [50000]
Chunking Options:
--chunk STR Operate on a single chunk. Format i/N, where i in [1,N]. Examples: 3/24 or 9/9
--max-chunks Determine maximum number of chunks.
Model Override Options:
--model-path STR Path to a chemistry model file or directory containing model files.
--model-spec STR Name of chemistry or model to use, overriding default selection.
Processing Options:
--by-strand Generate a consensus for each strand.
--hd-finder Enable heteroduplex finder and splitting
--skip-polish Only output the initial draft template (faster, less accurate).
--all Emit all ZMWs.
--subread-fallback Emit a representative subread, instead of the draft consensus, if polishing failed.
--all-kinetics Calculate mean pulse widths (PW) and interpulse durations (IPD) for every ZMW.
--hifi-kinetics Calculate mean pulse widths (PW) and interpulse durations (IPD) for every HiFi read.
Output Filter Options:
--min-rq FLOAT Minimum predicted accuracy in [0, 1]. [0.99]
Output Files Options:
--report-file FILE Where to write the results report.
--report-json FILE Where to write the results report as json.
--metrics-json FILE Where to write the zmw metrics as json.
--suppress-reports Do not generate report or metric files per default, only those requested.
-h,--help Show this help and exit.
--version Show application version and exit.
-j,--num-threads INT Number of threads to use, 0 means autodetection. [0]
--log-level STR Set log level. Valid choices: (TRACE, DEBUG, INFO, WARN, FATAL). [WARN]
--log-file FILE Log to a file, instead of stderr.
Copyright (C) 2004-2022 Pacific Biosciences of California, Inc.
This program comes with ABSOLUTELY NO WARRANTY; it is intended for
Research Use Only and not for use in diagnostic procedures.
五、CCS测序模式相关词汇英文解释
对于polymerase read, subreads,CCS的英文原版解释。
CCS测序模式相关词汇英文解释
网友评论