TCGA数据库改版SNP如何下载获取maf文件

作者: Li_bioinfo | 来源:发表于2022-11-21 21:41 被阅读0次

TCGA数据库改版SNP如何下载获取maf文件
TCGA的maf文件开始控制下载了
TCGA 突变信息转置0，1 （机器学习输入）
Maf文件中突变起始位点与终止位点的关系
TCGA2022年新版本SNP数据处理
SNP mutation‐related genes in br
TCGA突变数据挖掘：把样本整理为突变型或野生型
【R实战】使用maftools复现SCI文章中的体细胞突变瀑布图
R代码合并TCGA体细胞突变数据
R语言合并TCGA中CNV矩阵

改版之前下载的界面是这样的，可以直接下载，直接用于后续绘制瀑布图和提取TMB数据。

image.png
改版之后，一个样本一个maf文件，这下可发愁了，不用急，方法来了。
和往常一样，打开浏览器，输入我们熟悉的gdc官网页面：https://portal.gdc.cancer.gov/ 。

image.png

进入之后先确认下Cart为空，否则下载数据可能会出错，然后点击菜单“Repository”，进入之后左上角有两个菜单，先选择“Cases”，在“Cases”里面的“Program”选择TGCA，这个没有问题，“Project”选择自己研究的肿瘤类型，比如这里选择TCGA-STAD（也就是我们常用的胃癌）。

image.png

然后选择“Files”菜单栏，“Data Category”选择simple nucleotide variation，“Data Tyep”选择Masked Somatic Mutation，选好之后，

image.png
点击中间部位的菜单栏“Add All Files to Cart”，把数据放入购物车，然后进入类似购物车的“Cart”菜单，在Download菜单下载Cart，也就是数据压缩包，点击之后需要耐心等待，后台正在打包，打包好之后就会进入浏览器下载模式，接下来就等待下载，同时也可以把Manifest文件下载下来，如果后面用得到的话。在clinical下面可以获取到临床数据。

image.png
接下啦就是数据这里提取阶段，这里分三步：

image.png

1、把下载的gdc压缩包解压

# 设置工作地址为解压后的文件地址
setwd()
# 创建一个目录保存所有结果
dir.create('0000_all_maf')
# 下载的文件名为36个字母才是所需的，其他的可以忽略
dir_all <- dir()[nchar(dir()) == 36]
for (dir_maf in dir_all) {
   #内部文件也是压缩的，需要解压出来并保存到之前创建的目录中
  maf_file <- list.files(dir_maf, pattern = ".*maf")
  if (grepl('gz$',maf_file)){
  R.utils::gunzip(paste0(dir_maf,"/",maf_file))
  }
  file_extracted <- list.files(dir_maf, pattern = ".*maf$")
  file.copy(paste0(dir_maf,"/",file_extracted),"0000_all_maf")
}
# 将工作地址设置为之前创建的目录
setwd()

file_extracted_maf <- list.files()
first_file <- read.delim(file_extracted_maf[1], header = T, sep = '\t', comment.char = '#',stringsAsFactors = F)
for (extracted_maf in file_extracted_maf[2:length(file_extracted_maf)]) {
  file_appended <- read.delim(extracted_maf, header = T, sep = '\t', comment.char = '#',stringsAsFactors = F)
  first_file <- rbind(first_file,file_appended)
}
PAAD_maf <- first_file

# 测试是否可以读入到maftools中
# library(maftools)
# PAAD_maf = read.maf(PAAD_maf)

这里的代码只是为了将所有文件存在在一起，其实不用一定要保存到某个位置，而可以直接读取整合，也不用解压，甚至不用创建一个first_file，而直接创建一个PAAD_maf为空dataframe，然后一个一个rbind即可。anyway，代码不重要，实现目的即可。
还有一个参考的方法，利用maftools批量读取再merge到一起，也是很方便2022-TCGA数据库重大更新后3行代码提取simple nucleotide variation的数据 - 腾讯云开发者社区-腾讯云 (tencent.com)
只需要3行代码就可以搞定的，下载后的数据解压到了DLBC_SNV文件夹中。

library(maftools)
library(tidyverse)
mafFilePath = dir(path = "./DLBC_SNV/",pattern = "masked.maf.gz$",full.names = T,recursive=T)
mafdata <- lapply(mafFilePath, function(x){read.maf(x,isTCGA=TRUE)})
snv_data = merge_mafs(mafdata)