我们平时使用TCGA的使用,基本都是下载临床特征数据,生存数据,基因表达量,高级一点的还可以去下载体细胞突变,拷贝变异数和DNA甲基化等。如果知道一些算法,还可以去获取MSI(微卫星不稳定性)、肿瘤免疫微环境等等。
但是,TCGA的数据远不止于此,关于肿瘤学研究,尤其是病理学医师,可能更关心的是获得病理学报告和切片图像等信息,其实在HPA数据里我们也是可以看到一些患者的组织学切片的图片,今天我们讲讲如何通过R语言包TCGAbiolinks获取病理学报告和切片图像。
安装和加载包
由于TCGAbiolinks这个包是Bioconductor上的包,如果网络不好的话,建议提前设置镜像。
## 设置清华大学镜像,可以提高下载速度
options(BioC_mirror="https://mirrors.tuna.tsinghua.edu.cn/bioconductor")
## 安装TCGAbiolinks包
BiocManager::install("TCGAbiolinks")
## 加载TCGAbiolinks包
library(TCGAbiolinks)
获取病理学报告 (PDF格式)
首先进行查询,然后下载,可以一次性查询多个患者,也可以输入患者的编码精准查询
## 首先可以设置一个目标文件夹
setwd("~/Desktop/TCGA/COAD") ## 设置目标文件夹
# 从legacy获取病理报告
query.legacy <- GDCquery(project = "TCGA-COAD", ## 肿瘤类型,可以修改
data.category = "Clinical", ##数据分类为临床
data.type = "Pathology report", ## 数据类型为病理学报告
legacy = TRUE,
barcode = c("TCGA-RU-A8FL","TCGA-AA-3972") ##制定患者编号
)
我们可以看下查询的内容,提示PDF是open状态。
getResults(query.legacy)[, 1:4]
row | id | data_format | access | cases |
---|---|---|---|---|
7 | a4753077-2bd3-4301-8424-b7575c8ccd66 | open | TCGA-RU-A8FL | |
365 | b77a41e9-cf0d-4b94-9576-09e91b6d8f61 | open | TCGA-AA-3972 |
下载的话,只需要一个GDCdownload()
函数即可
GDCdownload(query.legacy)
接着就是等待自动下载,这个根据网络而已,由于pdf的格式较小,下载速度还是比较快的,之后就会在目标文件夹新生成一个GDCdata的文件夹,再往下分别是/TCGA-COAD/legacy/Clinical,这里有两个文件夹,打开后里面就是我们需要的pdf报告了。
image.png
image.png
获取组织学切片图像(SVS格式)
TCGA的组织学切片图像,包括了组织切片(Tissue slide image)和诊断切片(Diagnostic Slide)两种,数据库有legacy和harmonized 两种类型,结果都是一样的。我们可以通过查询函数进行更多细节的提取,但是由于SVS格式一般都很大,我运行的这个有100M以上,所以下载图像数据也是非常考验网速的,我们可以试着下载一两个数据。。
先建立查询
# 从legacy数据库获取组织学切片图片文件
query.legacy <- GDCquery(project = "TCGA-COAD",
data.category = "Clinical",
data.type = "Tissue slide image",
legacy = TRUE,
barcode = c("TCGA-RU-A8FL","TCGA-AA-3972"))
# 从harmonized数据库获取组织学切片图片文件
query.harmonized <- GDCquery(project = "TCGA-OV",
data.category = "Biospecimen",
data.type = 'Slide Image')
## 从harmonized数据库获取诊断性切片图片
query.harmonized2 <- GDCquery(project = "TCGA-COAD",
data.category = "Biospecimen",
data.type = "Slide Image",
experimental.strategy = "Diagnostic Slide",
barcode = c("TCGA-RU-A8FL","TCGA-AA-3972"))
之后就是下载数据了,比如我们下载query.harmonized2的SVS图片
GDCdownload(query.harmonized2)
接下来,就是漫长的等待,我这个数据是145.7M,大概用了20分钟才下载完成。
image.png
打开SVS格式的图片需要专门的阅读器,这个搞病理学的应该懂
网上有关于病理学图片的机器学习的文章,如果想从这个方向入手的话,就慢慢下载数据吧。。。。
网友评论