全基因组 - 人类基因组变异分析（PacBio) （2）-- C

作者: 三代测序说 | 来源:发表于2023-10-18 17:02 被阅读0次

PheWAS(全表型组关联分析)----GWAS and Phe
CNVnator
HGVS基因突变命名规则
基因突变的命名规则和表示方法
GenomeSyn基因组共线性及结构变异可视化工具
关于全基因组关联分析（GWAS）
GWAS
(史上最全)SNP位点与转录因子结合特异性数据库：GVATdb
HGVS突变命名
Cell发布来自不同人群的结构变异图谱，发现超过12万个变异

一、基因组 PacBio SMRTbell文库的构建流程

1. PacBio SMRTbell 文库的结构

PacBio测序平台构建完成的测序文库形状就如同一个哑铃(Dumbell), 所以叫做SMRT bell, 图1右所示。其主要组成部分是：发卡状的接头（Hairpin Adapter）和双链DNA模板（Double Stranded DNA Template）。而文构建完成后、测序前还需要完成SMRT bell文库、Sequencing Primer、DNA Polymerase的混合工作（测序引物退火结合环装测序接头，然后引物-bell文库复合物结合DNA聚合酶, 图1右和图2所示。

图1. 基因组SMRTbell文库结构及构建流程

图2. SMRTbell文库测序引物和DNA聚合酶

2. 基因组SMRTbell文库构建流程

以基因组HiFi文库为例（10-20Kb文库 ) ，图1左所示：

1）通过核酸提取得到基因组DNA（gDNA)后，先利用G-tube管或Megaruptor System将基因组片段化至合适大小（一般动植物基因组20 Kb建库，微生物基因组10 Kb建库）；

2）通过去除单链悬突、损伤修复和末端修复等步骤，得到完整的双链DNA插入片段；

3）通过将SMRTbell接头连接至双链DNA的两端来创构建SMRTbell测序文库，从而得到环状模板。

4）完成接头连接后，需要对连接产物进行纯化，利用酶处理来消化线性或内部损伤环形DNA分子（游离的Hairpin Adapter、两端未连接Adapter的DNA模板、已成环但内部有损伤的DNA模板），酶处理完毕后，一般会利用Bulepippin或Sage ELF System切胶回收目标大小范围内的文库。

二、PacBio Subreads and HiFi reads

HiFi reads（High Fidelity reads）是2019年由PacBio推出的基于环化共有序列（Circular Consensus Sequencing，CCS）模式产生的既兼顾长读长（~10-20 kb）又具有高精度（>99%准确率）的测序序列数据（图3）。

图3. HiFi reads 既长又准确

对于一条待测序的DNA片段，在CCS测序模式下，酶读长（polymoerase read）远大于插入片段长度，聚合酶会绕着DNA模板进行滚环测序，其中插入目的片段会被多次重复测序。单次测序中产生的随机测序错误，通过环形测序生成的一系列冗余的Subreads来进行自我矫正。通过PacBio公司开发的CCS算法进行自我纠错校正后，最终得到一条高准确度的CCS read, 因为每个碱基的测序质量较高，所以称为HiFi read （图4）。

图4. HiFi reads 的概念以产生过程

三、PacBio Subreads 数据到 HiFi reads数据

Pacbio Sequel II 平台早期支持CLR（Continuous Long Reads）和CCS（Circular Consensus Sequencing）两种测序方式。 CLR模式适用超长片段文库（> 25 kb），对下机的subreads数据不再进行后续处理，可以直接使用，用作下游分析的原始数据，唯一的缺点就是每条reads准确度低一些。

从2022年下半年起，最新的建库试剂盒SMRTbell prep kit 3.0 舍弃了CLR模式，全部采用CCS建库测序模式，所以下机的subreads都要经过CCS算法将subreads去冗余转化为HiFi reads。对于Pacbio Sequel II 平台的用户，下机的subreads数据需要在服务器用SMRTlink软件里的CCS程序或者自己运行单独安装CCS软件进行HiFi reads的转换。对于Pacbio Sequel IIe 和 Revio平台，因为测序仪器本身内置了计算服务器，可以在运行测序前通过SMRTlink设置，下机直接得到HiFi reads的数据。

所以在大家拿到PacBio测序数据时，例如下载公共数据尤其是早期数据时，一定要弄清楚是subreads，还是HiFi reads。对于近期从测序服务商那里得到的数据一般都是运行完CCS软件后的HiFi reads。

对于自己有PacBio仪器的，并且服务器配置SMRTlink软件的用户，可以直接在SMRTlink中运行CCS（Circular Consensus Sequencing）程序，运行完成以后，你还会在SMRTlink里面得到CCS分析报告，会给出HiFi reads的信息以及可视化图的统计信息展示。

下面的教程呢，是我们没有测序仪器和安装配置SMRTlink软件，但又想单独在自己的服务器或者高性能工作站上安装CCS程序并且运行的同学和老师准备的。

四、CCS程序的安装和使用

CCS官网：https://ccs.how/

CCS官网(github)：https://github.com/PacificBiosciences/ccs

1. 确保已经安装miniconda

#直接使用conda安装最新版本的pbccs
$ conda install -c bioconda pbccs

#Version 6.4.0

2. 软件的运行

Pacbio Sequel II平台的下机数据为bam格式， bam文件可直接适配大多数的下游分析软件，存储有效数据的文件一般命名为： *.subreads.bam, *.subreads.bam.pbi。

输入文件：sample.subreads.bam 以及相对应的索引sample.subreads.bam.pbi
输出文件：unaligned BAM (.bam);bgzipped FASTQ (.fastq.gz)。

基础使用，全部参数默认：

#生成 .bam 文件
$ ccs  sample.subreads.bam  sample.ccs.bam

#生成 .fastq.gz 文件
$ ccs  sample.subreads.bam  sample.hifi.fastq.gz

进阶使用:

#生成.bam文件
$ ccs  --min-rq  0.99 --min-passes 3 -j 12  sample.subreads.bam  sample.ccs.bam

#生成 .fastq.gz 文件
$ ccs  --min-rq  0.999 --min-passes 5  -j 24  sample.subreads.bam  sample.hifi.fastq.gz

#以下是经常会设置参数，根据数据和应用的需求自行调整，剩下的参数默认即可。
-j  12    CPU线程数
--min-passes 3     最少产生CCS read 的subreads数，默认是3.
--min-rq  0.99       碱基准确度，默认为0.99，等于Q20.
--min-length         最小reads长度，默认为10.
--max-length        最大reads长度，默认为50000.

CCS --help 文档及参数，如果有需要可以自行修改：

ccs - Generate circular consensus sequences (ccs) from subreads.

Usage:
  ccs [options] <IN.subreads.bam|xml> <OUT.ccs.bam|fastq.gz|xml>

  IN.subreads.bam|xml       FILE   Subreads (.subreads.bam or .subreadset.xml).
  OUT.ccs.bam|fastq.gz|xml  FILE   Consensus reads (.bam, .fastq.gz, or .consensusreadset.xml).


Input Filter Options:
  --min-passes              INT    Minimum number of full-length subreads required to generate CCS for a ZMW. [3]
  --min-snr                 FLOAT  Minimum SNR of subreads to use for generating CCS [2.5]
  --top-passes              INT    Pick at maximum the top N passes for each ZMW. [60]

Draft Filter Options:
  --min-length              INT    Minimum draft length before polishing. [10]
  --max-length              INT    Maximum draft length before polishing. [50000]

Chunking Options:
  --chunk                   STR    Operate on a single chunk. Format i/N, where i in [1,N]. Examples: 3/24 or 9/9
  --max-chunks                     Determine maximum number of chunks.

Model Override Options:
  --model-path              STR    Path to a chemistry model file or directory containing model files.
  --model-spec              STR    Name of chemistry or model to use, overriding default selection.

Processing Options:
  --by-strand                      Generate a consensus for each strand.
  --hd-finder                      Enable heteroduplex finder and splitting
  --skip-polish                    Only output the initial draft template (faster, less accurate).
  --all                            Emit all ZMWs.
  --subread-fallback               Emit a representative subread, instead of the draft consensus, if polishing failed.
  --all-kinetics                   Calculate mean pulse widths (PW) and interpulse durations (IPD) for every ZMW.
  --hifi-kinetics                  Calculate mean pulse widths (PW) and interpulse durations (IPD) for every HiFi read.

Output Filter Options:
  --min-rq                  FLOAT  Minimum predicted accuracy in [0, 1]. [0.99]

Output Files Options:
  --report-file             FILE   Where to write the results report.
  --report-json             FILE   Where to write the results report as json.
  --metrics-json            FILE   Where to write the zmw metrics as json.
  --suppress-reports               Do not generate report or metric files per default, only those requested.

  -h,--help                        Show this help and exit.
  --version                        Show application version and exit.
  -j,--num-threads          INT    Number of threads to use, 0 means autodetection. [0]
  --log-level               STR    Set log level. Valid choices: (TRACE, DEBUG, INFO, WARN, FATAL). [WARN]
  --log-file                FILE   Log to a file, instead of stderr.

Copyright (C) 2004-2022     Pacific Biosciences of California, Inc.
This program comes with ABSOLUTELY NO WARRANTY; it is intended for
Research Use Only and not for use in diagnostic procedures.

五、CCS测序模式相关词汇英文解释

对于polymerase read, subreads，CCS的英文原版解释。

CCS测序模式相关词汇英文解释

PheWAS(全表型组关联分析)----GWAS and Phe
1.GWAS GWAS，全基因组关联分析，是对不同个体的全基因组遗传变异进行研究，以了解任何变异(基因)是否与某一...
CNVnator
CNVnator CNVnator是一款CNV检测软件，通过对全基因组测序数据进行分析来预测CNV。拷贝数变异（C...
HGVS基因突变命名规则
人类基因组变异协会（HGVS：Human Genome Variation Society）规则是目前学术界所公认...
基因突变的命名规则和表示方法
人类基因组变异协会（HGVS：Human Genome Variation Society）规则是目前学术界所公认...
GenomeSyn基因组共线性及结构变异可视化工具
三代Pacbio和Nanopore测序技术的快速发展推动了比较基因组学领域的进步，泛基因组构建和结构变异识别成为该...
关于全基因组关联分析（GWAS）
全基因组关联分析是一种在人类或动植物全基因组中寻找变异序列的方法，全英文名为Genome-wide associa...
GWAS
GWAS(全基因组关联分析)：在人类全基因组范围内找出存在的序列变异，即单核苷酸多态性(SNP)，从中筛选出与疾病...
(史上最全)SNP位点与转录因子结合特异性数据库：GVATdb
众所周知，全基因组关联分析（GWAS）发现的很多变异位点基本为非编码，这些变异位点1）要么调控基因表达（eQTL）...
HGVS突变命名
基因突变的规范命名是基因变异解读中不可或缺的一部分。1998年由人类基因组变异协会（HGVS）、人类变异项目组（H...
Cell发布来自不同人群的结构变异图谱，发现超过12万个变异
英国威康桑格学院研究所的研究人员通过对人类基因组多样性计划（HGDP）中数据集的结构变异进行全面分析，生成了来自不...