美文网首页高通量测序技术NGS
癌症基因组重测序分析三/四

癌症基因组重测序分析三/四

作者: 不想透明的小透明 | 来源:发表于2019-02-09 01:15 被阅读269次

第三节主要内容:测序实验流程、测序原理及基本名词解释

1. 测序错误率原因:Phasing & Pre-phasing

Phasing & Pre-phasing

2. 碱基质量评估方法:Q20,Q30

Q20:该碱基的出错率为0.01;

Q30:该碱基的出错率为0.001;

因此可以得到一个质量Q=-10Log(P-value)

各碱基的质量一般会储存在fastQ文件当中。

3. 测序仪举例:NextSeq 500

Illumina NextSeq 500

有两种模式,分别为高通量模式和中通量模式。

高通量模式下一次可测1个人的全基因组或9个人全外或10个人的全转录组以及40个基因表达谱;

中通量模式下一次上机可测3个外显子组,6个靶向测序,96个扩增子测序和12个基因表达谱测序。

MiSeq, NextSeq 500以及Hiseq 2500比较

第四节主要内容:利用癌症基因组重测序的数据鉴定和注释肿瘤样本中存在的Somatic SNV以及Indel

一、概要

1. 基因组重测序reads回帖方法

2. Somatic SNV和Indel鉴定方法

3. FASTQ, BAM, PILEUP, VCF等文件结果说明

4. 便以为点注释方法

二、分析流程产生的文件类型

1. FASTQ 文件——测序仪给出的文件

FASTQ文件格式详解

Lane1: @+read的名字+read在follow cell上的坐标

Lane2: sequences

Lane3: read的信息描述

Lane4: 碱基质量打分

2. 基于FASTQ文件的测序质量评估——软件举例:FASTX-Toolkit

测序公司给出的原始测序数据我们需要首先对测序质量进行评估以确认所拿到的测序结果是否满足我们进行下游生信分析的需求。

FASTX-Toolkit软件举例

3. SomaticSNV和Indel生物信息分析主要流程:

与基因组比对→→→变异位点鉴定→→→变异位点注释

所对应的文件格式变化为:FASTQ files (下机数据) →→ BAM files (比对后) →→VCF files (变异鉴定软件处理后)

(1)软件举例:GATK

GATK分析流程

优缺点:

A.优点,分为三步:先比对,再对比对结果进行了优化和校正,校正之后对SNV和Indel的鉴定更有效;其次该软件在鉴定SNV和Indel的时候有很多不一样的模型,这些模型可以保证我们在进行突变鉴定时是准确的

B. 缺点:鉴定的SNV和Indel不适用于肿瘤SomaticSNV和Indel的鉴定;其次,对于一些突变频率万分之几,十万分之几的低频突变的敏感度不够高。

三、分析流程详解

1. Reads的基因组回帖

(1)定义:将测序得到的数目众多的Reads,比对到参考基因组序列,并允许一定的错配。

(2)比对方法:

Blast、Blat? 

这些方法速度慢且对短reads不太合适,因此现在将又短又多的reads比对到长长的基因组上,关键在于对reads集合建立索引或者对参考基因组序列建立索引,也可以同时对两者建立索引。

建立索引主要的两种方法为:

A. Algorithms based on hash tables: MAQ, SOAP, ELAND, SeqMap, RMAP, ZOOM, SHRiMP

B. Algorithms based on suffix tree: Bowtie, BWA, SOAP2等

对全基因组重测序下机数据进行回帖主要用BWA这个方法。

(3)BWA软件介绍

BWA这个软件主要有三个主要功能,分别适用于三种不同的测序结果和测序长度

BWA软件的三种功能

(4)基因组比对

主要分两步:先是建立索引,然后进行比对

BWA软件进行reads比对流程

$ bwa index hg19_genome.fa :对参考序列建立索引

$ bwa mem hg19_genome reads1.fq reads2.fq ﹥bwabam :用BWA的MEM功能将双端测序reads比对到参考基因组上

$ samtools sort bwa.bam ﹥bwa.sort.bam:得到的比对结果文件(BAM文件)需要再进行处理和优化,如按照染色体位置进行分类

$ samtools rmdup bwa.bam ﹥bwa.sort.rmd.bam:去除建库PCR过程产生的duplication

(5)基因组重测序reads回帖结果的校正

A. Indel Realignment

因为在Indel附近的SNV鉴定结果有很大概率不准确,因此在得到去重等处理之后的比对结果之后,还需要对比对结果进行Indel realignment的操作,从而筛去那些假阳性的SNV结果。

Indel Realignment workflow

GATK中Indel Realignment的功能可以分为两步:第一步输入dbSNP中的VCF文件(包含Indel信息),从而创建一个Indel坐标,第二步运用Indel Realigner,根据indel坐标信息将含有indel的reads进行重新的基因组回帖,得到优化的BAM文件。

indel Realignment处理前后的BAM文件结果比对

B. GATK对reads的碱基质量值进行校正

(6)基因组重测序reads回帖结果文件解读(SAM/BAM格式)

BAM文件是SAM文件的一个二进制形式

SAM/BAM文件举例

第一列:reads的名字

第二列:Flag,即reads的状态,是二进制数值累加的值,数值能够告知‘是单端测序还是双端测序’,‘mate-pair reads是否比对上参考基因组’等(samtools flags的含义

没有时间详细看给出学习链接的话可以参考下面的图

samtools flags含义解释举例

第三列:reads比对到的染色体

第四列:染色体上的位置, position

第五列:质量,值越高比对的错误率越低

第六列:CIGAR string:reads是以什么形式比对到基因组上的

GICAR字符释义 GICAR解读举例

比对结果:3M1I3M1D5M(3个比对上,1个insertion,3个比对上。1个deletion,5个比对上)

第七+八列:双端测序的mate-pair reads的比对情况

第九列:mate-pair reads之间的insertion size

第十列:reads详细的序列信息

第十一列:reads的碱基质量信息

PS:推荐补充学习材料

Sam和bam文件说明

The SAM Format Specification (v1.4-r985)

samtools常用命令详解

四、利用BAM文件鉴定肿瘤中特异存在的变异位点

比较:癌和癌旁

利用BAM文件鉴定肿瘤特异性突变分析流程 几种位点的解释示意图

Allele frequency 变异位点等位基因频率=变异reads/总的reads数,一方面反映了肿瘤纯度问题,另一方面反映了亚克隆存在情况问题。

1. 肿瘤组织中somatic mutation鉴定

(1)将BAM文件生成PILEUP文件

$ samtools mpileup -q l -f hg19_genome normal_bam ﹥normal_pileup

$ samtools mpileup -q l -f hg19_genome tumor_bam ﹥tumor_pileup

(2)根据normal和tumor的pileup文件,调用VarScan的somatic mutation程序,鉴定somatic mutation

$ java -Xmx8g -jar VarScan.jar somatic normal.pileup tumor.pileup --output-snp somatic.snp.output --output-indel somatic.indel.output

(3)对VarScan输出的SNP和Indel结果进行处理:将结果分成4类,分别为高可信度somatic mutation位点(output.snp.Somatic.hc),低可信度somatic mutation位点(output.snp.Somatic.lc),germline mutation位点(output.snp.Germline)以及杂合缺失位点(LOH sites)(output.snp.LOH)

$ java -jar VarScan.jar processSomatic somatic.snp.output 

2. Pileup文件格式解读

Pileup文件格式解读举例

第一列和第二列:所在染色体及其具体位置信息

第三列:参考基因组上的位点 (read base), 每个点(dot)代表这个碱基正向匹配到reference base, 每个逗号代表该碱基反向匹配到reference base. 如果是‘ACGTN’,说明这个碱基是个正向的mismatch,如果是‘actgn', 说明这个碱基是个反向的mismatch。这个样式 '\+ or - [0-9]+[ACGTNacgtn]+'是在这个reference position和下一个reference position之间的插入(insertion)或缺失(deletion)突变。加号代表插入,减号代表缺失,数字是插入或缺失的长度,数字后面的’ACGTN or acgtn'就是插入或缺失的碱基。

PS: 推荐附加阅读Pileup格式-生信技能树Pileup格式解读

第四列:碱基对应的深度

第五列:这个位点所对应的的位置的碱基的情况

第六列:碱基质量

3. 变异结果文件格式解读(VarScan)

VarScan运行结果解读举例

第一列和第二列表示的是比对上的染色体位置,分别为染色体,以及染色体上的具体位置;第三列是参考基因组上的碱基;第四列是VarScan鉴定出来的变异碱基;第五列(如例子中的27指的是癌旁组织中与参考基因组一样的碱基频数,40位癌旁组织中与变异位点一样的碱基频数,59.7%即为变异位点频率),‘Y’表示变异类型。后续的‘38’,‘44’和’53.66%’为癌组织中的相应的数值。

IUPAC Code对应表

somatic sites: a. 癌组织和癌旁组织存在显著差异; b.变异位点仅存在癌组织,癌旁组织中一点都没有

4. 其他鉴定体细胞变异方法举例

(1) Samtools

(2) Pindel: a pattern growth approach to detect break points of large deletions and medium sized insertions from paired-end short reads

在进行somatic mutation的鉴定时可以同时使用多个鉴定软件,这样得到的结果会相对更可靠。

5. VCF结果文件格式解读

VCF文件:分为两个部分,#开头的为注释部分,包括VCF的版本,缩写的含义等;#以下为主体文件部分。

vcf文件格式详解

推荐阅读:生物基因数据文件——vcf格式详解 vcf格式解读及vcftools简介(生信技能树)

相关文章

  • 癌症基因组重测序分析三/四

    第三节主要内容:测序实验流程、测序原理及基本名词解释 1. 测序错误率原因:Phasing & Pre-phasi...

  • 分析流程

    基因组重测序数据目的:需要检测基因组中的变异,找到并定位这些突变位点 条件:参考基因组、重测序数据、 分析流程: ...

  • 5.6 基因检测:在森林里找到一片黄色的树叶

    基因检测分类方法很多,最常见的是按检测范围分为:全基因组测序、靶向重测序。 全基因组测序 是分析基因组的最全面的方...

  • 癌症基因组重测序分析五

    ——体细胞拷贝数变异(CNV)与基因组结构变异(SV)鉴定 1. 什么是CNV? Deletions and du...

  • 群体遗传学习笔记-测序技术学习

    重测序技术简介 全基因组重测序(Resequencing)是对已知参考基因组序列的物种进行不同个体间的基因组测序,...

  • 重测序分析

    重测序:是对已对已知基因组的物种进行测序,去挖掘不同个体和群体之间的差异性。 重测序分析内容: SNP,INDEL...

  • 全基因组测序 从头测序(de novo sequencing)

    全基因组测序 全基因组测序分为从头测序(de novo sequencing)和重测序(re-sequencing...

  • 科普笔记12:Genome Re-sequencing 基因组重

    全基因组重测序是对已知基因组序列的物种进行不同个体的基因组测序,并在此基础上对个体或群体进行差异性分析。 全基因组...

  • 基因组重测序SNP_calling

    1 介绍 基因组重测序是对已知基因组序列的物种进行不同个体的基因组测序,并在此基础上对个体或群体进行差异性分析。 ...

  • 全基因组重测序技术路线

    概述全基因组重测序是对已知基因组序列的物种进行不同个体的基因组测序,并在此基础上对个体或群体进行差异性分析。将不同...

网友评论

    本文标题:癌症基因组重测序分析三/四

    本文链接:https://www.haomeiwen.com/subject/aozwsqtx.html