美文网首页公共数据挖掘
2021-02-24--TCGA 拷贝数变异数据分析

2021-02-24--TCGA 拷贝数变异数据分析

作者: FFwizard | 来源:发表于2021-02-28 00:38 被阅读0次

GISTIC2 分析 TCGA拷贝数变异数据及可视化 全过程

一、数据下载

1、Segment_data数据下载

TCGA官网下载

下载地址
它有如下CNV类型,而在TCGA数据库里面我们通常关心的是somatic CNV,也就是那些肿瘤病人的拷贝数变异然后要剔除正常对照里面的CNV多态性信息,只有这些somatic CNV才更可能是跟肿瘤相关的。
Masked Copy Number Segment, 此表是在上面数据上过滤掉了一些与生殖和性染色体相关的数据。

image.png
①Copy Number Segment:
从筛选界面就能看出来这些信息:
Experimental Strategy:Genotyping Array;
Workflow Type:DNAcopy
Platform:affymetrix snp 6.0
下载一个文件查看一下发现它又一下六列信息;病历号,染色体位置,Num_probes,Segment_Mean;
Num_probes应该是指的探针号,暂时来说用不到这个信息。
Segment_Mean值--就是 log2(copy_number/ 2), 正常来说人是二倍体生物则此value值为0,如果拷贝数小于2(删除)则小于0,拷贝数大于2(扩增)则大于0.
image.png
用R语言下载和整理

官网下下来的文件整理比较麻烦,这里直接用R语言整理比较方便

BiocManager::install('TCGAbiolinks')
library(TCGAbiolinks)
query <- GDCquery(project = "TCGA-LUAD", 
                  data.category = "Copy Number Variation", 
                  data.type = "Masked Copy Number Segment")

GDCdownload(query, method = "api", files.per.chunk = 100)
segment_dat <- GDCprepare(query = query)
segment_dat$Sample <- substring(segment_dat$Sample,1,16)
segment_dat <- grep("01A$",segment_dat$Sample) %>% 
  segment_dat[.,]
segment_dat[,1] <- segment_dat$Sample
segment_dat <- segment_dat[,-7]
write.table(segment_dat,"MaskedCopyNumberSegment.txt",sep="\t",
            quote = F,col.names = F,row.names = F)

segment_data长这样


image.png

2、Markers File

下载地址 ,选择文件 SNP6 GRCh38 Remapped Probeset File for Copy Number Variation Analysis,并注意提示 If you are using Masked Copy Number Segment for GISTIC analysis, please only keep probesets with freqcnv = FALSE ,所以只保留 freqcnv = FALSE 的行和前三列。

R语言整理Markers file 代码如下

snp<-read.table('snp6.na35.remap.hg38.subset.txt',header=T)
snp<-snp[snp$freqcnv=='FALSE',]
snp<-snp[,1:3]
colnames(snp)<-c("Marker name","chromosome","Marker position")
write.table(snp,'Marker.txt',sep="\t",
            quote = F,col.names = F,row.names = F)

文件长这样

image.png

好了,我们所需要下载的文件就已经准备好了

二、GISTIC2的使用

1、在线分析

Genepattern 云分析平台中有GISTIC2模块,可以直接注册使用,缺点是网不好。

2、安装GISTIC2软件分析

在linux服务器上安装GISTIC2软件

wget -c ftp://ftp.broadinstitute.org/pub/GISTIC2.0/GISTIC_2_0_23.tar.gz
mkdir GISTIC2 && mv GISTIC_2_0_23.tar.gz GISTIC2/ && cd GISTIC2/
tar -xzvf GISTIC_2_0_23.tar.gz
cd MCR_Installer/ && unzip MCRInstaller.zip
./install -mode silent -agreeToLicense yes -destinationFolder /PATH/GISTIC2/MATLAB_Compiler_Runtime/
export XAPPLRESDIR=/PATH/GISTIC2/MATLAB_Compiler_Runtime/v83/X11/app-defaults:$XAPPLRESDIR

参数
软件的参数有很多,详细可以见软件包下的document,这里介绍几个常用的:
-b 输出目录,后面接一个输出文件前缀prefix
-seg 上面讲到的Segmentation文件
-refgene 上面讲到的参考基因组文件
-conf 置信水平,默认是0.75
TCGA官方参数

gistic2 
-b <base_directory> 
-seg <segmentation_file> 
-mk <marker_file> 
-refgene <reference_gene_file>
-conf 0.99 
-td 0.1 -genegistic 1 -gcm extreme -js 4 -maxseg 2000 -ta 0.1 -armpeel 1 -brlen 0.7 -cap 1.5 -qvt 0.25 -rx 0 -savegene 1 (-broad 1)

输出文件

image.png

三、使用maftools读取GISTIC输出的CNV数据并统计

需要如下这四个文件输入到R包--maftools进行可视化分析
"all_lesions.conf_99.txt",
"amp_genes.conf_99.txt"
"del_genes.conf_99.txt"
"scores.gistic"

library(maftools)
luad.gistic <- readGistic(gisticAllLesionsFile="all_lesions.conf_99.txt", gisticAmpGenesFile="amp_genes.conf_99.txt", gisticDelGenesFile="del_genes.conf_99.txt", gisticScoresFile="scores.gistic", isTCGA=TRUE)
## -Processing Gistic files..
## --Processing amp_genes.conf_99.txt
## --Processing del_genes.conf_99.txt
## --Processing scores.gistic
## --Summarizing by samples

染色体突变图

gisticChromPlot(gistic=luad.gistic, markBands="all")
image.png
气泡图
gisticBubblePlot(gistic=luad.gistic)
image.png

也可以用oncoplot同时展示CNV和突变

luad.plus.gistic <- read.maf(maf="TCGA.LUAD.maf", gisticAllLesionsFile="all_lesions.conf_99.tx
t", gisticAmpGenesFile="amp_genes.conf_99.txt", gisticDelGenesFile="del_genes.conf_99.txt", gist
icScoresFile="scores.gistic")
# 因为样本数太多,使用borderCol=NULL不显示样本边界。可惜的是目前gisticOncoPlot还没有加上这个参数
oncoplot(maf=luad.plus.gistic, borderCol=NULL, top=10)
image.png

参考资料:
简书1
技能树
博客1--GISTIC2软件安装
maftools_CNV 可视化

相关文章

  • R语言合并TCGA中CNV矩阵

    上一期给大家介绍了如何从TCGA数据库下载拷贝数变异(CNV)数据 ☞ 如何下载TCGA拷贝数变异(CNV)数据[...

  • 2021-02-24--TCGA 拷贝数变异数据分析

    GISTIC2 分析 TCGA拷贝数变异数据及可视化 全过程 一、数据下载 1、Segment_data数据下载 ...

  • 什么是拷贝数变异CNV

    拷贝数变异 拷贝数变异(Copy number variation, CNV)是由基因组[https://baik...

  • GISTIC2.0初使用

    我的操作系统:Ubuntu 16.04 LTS GISTIC2.0用以分析癌症拷贝数变异的一个数据处理模块。具体介...

  • CNV分析流程

    CNV 拷贝数变异分析流程 一 .下载文件(略) 二 .注释基因 通过位点把基因位点注释为基因 三 .数据整理合...

  • CNVnator

    CNVnator CNVnator是一款CNV检测软件,通过对全基因组测序数据进行分析来预测CNV。拷贝数变异(C...

  • 使用CNVnator分析动植物群体拷贝数变异CNV

    知名的拷贝数变异分析工具几乎都是为人类变异检测开发,对于动植物重测序分析有些尴尬。不过好在植物群体研究不必那么精细...

  • inferCNV学习笔记

    InferCNV是一个由broad研究所开发的,利用单细胞转录组数据分析肿瘤细胞拷贝数变异(CNV)的工具。基本思...

  • 单细胞拷贝数变异

    拷贝数变异分析在单细胞中常应用于区分肿瘤细胞,因为肿瘤细胞没有明确的Marker,很难通过转录组数据从肿瘤细胞中区...

  • CNV拷贝数变异分析(GISTIC、maftools)

    CNV拷贝数变异分析是什么?贴一段TCGA官网的介绍 "The copy number variation (CN...

网友评论

    本文标题:2021-02-24--TCGA 拷贝数变异数据分析

    本文链接:https://www.haomeiwen.com/subject/avmsfltx.html