CNV分析学习笔记

作者: 珠江肿瘤 | 来源:发表于2020-03-18 15:47 被阅读0次

    引言:

    CNV分析是多组学分析中重要的一环。可以基于CNV进行聚类分析,从而探究某些特定CNV与临床特征的关联(如肿瘤样本的组织学、预后特征等),也可以将CNV聚类结果与mRNA、甲基化、蛋白质表达、基因突变等聚类结果进行整合以探究CNV聚类与其他聚类的整合特征。所以,今天就和小编一起来学学CNV相关知识,涉及基础概念、CNV分析需要的重要文件、CNV结果分析以及部分绘图知识。

    一、基础概念

    1.拷贝数变异的定义

    CNV(copy-number variant)是指拷贝数目变异,也称拷贝数目多态性(copy-number polymorphism,CNP),是一个大小介于1kb至3MB的DNA片段的变异,在人类及动植物基因组中广泛分布,其覆盖的核苷酸总数大大超过单核苷酸多态性(SNP)的总数,极大地丰富了基因组遗传变异的多样性。按照CNV是否致病可分为致病性CNV非致病性CNV不明临床意义CNV

    • 体细胞拷贝数变异(somatic CNV):在TCGA数据库里面,我们通常关心的是somatic CNV,也就是剔除正常对照里面的CNV多态性信息的肿瘤样本拷贝数变异,只有这些somatic CNV才更可能是跟肿瘤相关的。

    2.拷贝数变异的测定

    拷贝数变异情况可以由SNP6.0比较基因组杂交芯片得到,也可以由WES测序得到,WGS测序会更好.不过选择什么样的实用技术,往往受限于资金和设备。TCGA里面主要是通过Affymetrix SNP6.0 array这款芯片来测拷贝数变异。

    3.GISTIC学习参考文献

    1.Beroukhim, R., Getz, G., Nghiemphu, L., Barretina, J., Hsueh, T., Linhart, D., Vivanco, I., Lee, J. C., Huang, J. H., and Alexander, S., et al. (2007). Assessing the significance of chromosomal aberrations in cancer: methodology and application to glioma. P NATL ACAD SCI USA 104, 20007-20012.

    • fig 1:展示GISTIC 1.0中CNV变异分析的原理图

    • 解读:GISTIC通过两个关键步骤来识别显著性CNV突变。

    • 第一步,该方法计算涉及CNV出现频率和CNV改变幅度的统计量(G分数)。在这里请大家结合示意图,关注一下什么是频率和幅度(amplitude)。

    • 第二步,使用基于整个基因组中整体突变模式的排列检验,通过将观察到的统计数据与偶然的预期结果进行比较,评估每种CNV的统计显著性。使用假阳性发现率(FDR)进行多重假设检验,并为每个结果分配一个q值,反映了该事件归因于随机波动的可能性。

    • 基于G分数和q值,便可以识别样本出显著突变的CNV。对于每个重要CNV区域,该方法定义一个具有最大突变频率和振幅的“峰值区域”。测试每个峰值以确定信号是否主要是由于broad event,focal event 或两种类型的重叠事件所致。

    • fig 2:示胶质瘤实例分析中CNV分析结果

    • a.展示CNV segment文件的热图,不同类型肿瘤样本中的拷贝数变异情况,纵轴展示染色体情况,不同的列代表不同得到样本,颜色从蓝到红展示CNV分析结果。

    • b-c.GISTIC 1.0分析结果:纵轴代表不同的染色体(红色/蓝色条形对应染色体 arm-level CNV;红色/蓝色横线对应focal CNV),横轴标记为FDR水平,超过显著性水平(q < 0.25)的CNV被认为具有显著意义。

    2.Mermel, C. H., Schumacher, S. E., Hill, B., Meyerson, M. L., Beroukhim, R., and Getz, G. (2011). GISTIC2.0 facilitates sensitive and confident localization of the targets of focal somatic copy-number alteration in human cancers. GENOME BIOL 12, R41. image

    fig 1:展示GISTIC 1.0 与 GISTIC 2.0中CNV变异分析的差异。如G分数的计算方法。

    fig 2a-2b:展示不同长度染色体片段的CNV情况;

    fig 2c:GISTIC 2.0可通过计算机算法将所有CNV分类为arm-level 和focal SCNVs.

    fig 3:展示设置不同阈值后会得到略微有差别的CNV分析结果

    二、CNV分析需要的重要文件

    1. Segment file:包含染色体片段信息的文件

    • num.markers:探针数量

    • CN column :(log2() -1 of copy number);

    • 查阅后的理解:seg.CN:log(样本拷贝数/正常样本拷贝数);其中gistic将正常样本拷贝数认为是2,故0.0为中性事件,负数为缺失事件,正数为扩增事件。等价计算:log2(3/2) = log2(3) - log2(2) = log2(3) - 1 = +0.58

    2. score.gistic文件:gistic算法处理得到的含G分数和q值的文件

    例如(官网提供的score.gistic文件示例)

    对不同列的解释:

    • Type:示突变的类型Amp/Del

    • Amplification Threshold: Threshold for copy number amplifications. Regions with a log2 ratio above this value are considered amplified(高于设定的某个阈值,被认为是扩增)

    • Deletion Threshold: Threshold for copy number deletions. Regions with a log2 ratio below the negative of this value are considered deletions(低于设定的某个阈值,被认为是缺失)

    • Amplitude:振幅。这里可以理解为CNV的扩增或缺失的多少。**例如某个片段扩增(或缺失)某个数量。

    • Score:G-score 综合考虑患者样本间CNV发生的频率和CNV扩增/缺失数量(Amplitude)而计算出的G-score。

    • Frequency:在整个基因组的所有拷贝数变异中,某个突变的频率 。

    • 有些资料将Frequency与percentage混用,故我认为这里可以理解为某个突变占基因组所有CNV的百分比。

    三、绘制CNV图谱(做图)

    画copy number profile需要 gistic score染色体信息,其中gistic score可以用GISTIC 2.0计算(输入segment file)。

    1) 获得感兴趣亚型的gistic scores:下载全部样本的segment file,然后按subtype分开(由自己定义),用GISTIC 2.0计算gistic scores,然后用算出的gistic scores来画图。

    • 第一步,下载全部样本的segment file

    • 方法1:从firehose下载hg19版本的TCGA数据:

    • 方法2:hg38版本(TCGA数据)segment的获取可用 TCGAbiolinks()。参照如下:

        library(TCGAbiolinks)
    
    • 第二步,拆分出亚型的segment file从TCGA获得亚型的sample ID,然后把总体segment file拆分成亚型的segment file。可根据每种肿瘤的具体情况来做亚型之间的对比。

    • 第三步,计算gistic score

    • 可下载GISTIC 2.0进行本地分析;

    • 可在genepattern的gistic2.0模块进行在线分析,在线分析至少需要上传2个文件(星号标记):

    gistic2.0分析中需要上传的文件及相关参数设置:

    ①参考基因组文件(必选项):下拉菜单中可选(包含基因位置,该数据不依赖平台探针标志文件而展示基因位置信息);

    ②Seg file(必选项): 包含染色体片段数据的文件;

    ③Markers file:标记文件,包含探针名和探针位置(基于探针名和平台信息识别CNVs)。marker file包括3列:

    • Marker Name

    • Chromosome

    • Marker Position (in bases)

    ④Maxspace:设置maxspace生成伪标记(pseudo-markers),而不是创建标记文件(markers file)。参数定义了以碱基(bases)为单位的伪标记之间允许的最大间隔。包含少于此标记数的段(segment)将连接到拷贝数最接近的相邻段。设置“标记文件”时,将忽略“ maxspace”。如果两者均未设置,则生成伪标记的maxspace为10,000(系统默认10000)。

    ⑤Cnv file:指定种系CNV区域(或其他高度变异的)以从显著性分析中排除。有两种方式:基于标记文件(latform-specific)和基于基因位置( genome-build dependent)。

    2)准备染色体信息:

    基于"BSgenome.Hsapiens.UCSC.hg19"包(Full genome sequences for Homo sapiens (Human) as provided by UCSC (hg38, Dec. 2013) and stored in Biostrings objects.)准备染色体信息。需要根据每条染色体的长度,将所有染色体绘制在同一坐标轴上。

    • 创建染色体参考对象功能

    • 提取染色体参考基因座

    3) 绘图:绘制全部样本的gistic score和percentage/frequency图谱。

    结语:同样的方法可以用于绘制任意感兴趣亚型之间对比的gistic score和percentage/frequency,例如感兴趣的亚型CDKN1A-mutation和CDKN1A-wildtype。学习到这里,相信大家应该能够看懂文献中常见的一些CNV分析结果了。如果想要完全重现文献中的结果图,我们还要继续掌握数据处理和绘图的细节,一起冲鸭~~~

    相关文章

      网友评论

        本文标题:CNV分析学习笔记

        本文链接:https://www.haomeiwen.com/subject/hcqnehtx.html