美文网首页
利用TCGAbiolinks下载病理学报告(PDF)和切片图像(

利用TCGAbiolinks下载病理学报告(PDF)和切片图像(

作者: 欧阳松 | 来源:发表于2022-11-03 00:32 被阅读0次

    我们平时使用TCGA的使用,基本都是下载临床特征数据,生存数据,基因表达量,高级一点的还可以去下载体细胞突变,拷贝变异数和DNA甲基化等。如果知道一些算法,还可以去获取MSI(微卫星不稳定性)、肿瘤免疫微环境等等。
    但是,TCGA的数据远不止于此,关于肿瘤学研究,尤其是病理学医师,可能更关心的是获得病理学报告和切片图像等信息,其实在HPA数据里我们也是可以看到一些患者的组织学切片的图片,今天我们讲讲如何通过R语言包TCGAbiolinks获取病理学报告和切片图像。

    安装和加载包

    由于TCGAbiolinks这个包是Bioconductor上的包,如果网络不好的话,建议提前设置镜像。

    ## 设置清华大学镜像,可以提高下载速度
    options(BioC_mirror="https://mirrors.tuna.tsinghua.edu.cn/bioconductor")
    ## 安装TCGAbiolinks包
    BiocManager::install("TCGAbiolinks")
    ## 加载TCGAbiolinks包
    library(TCGAbiolinks)
    

    获取病理学报告 (PDF格式)

    首先进行查询,然后下载,可以一次性查询多个患者,也可以输入患者的编码精准查询

    ## 首先可以设置一个目标文件夹
    setwd("~/Desktop/TCGA/COAD") ## 设置目标文件夹
    # 从legacy获取病理报告 
    query.legacy <- GDCquery(project = "TCGA-COAD",  ## 肿瘤类型,可以修改
                             data.category = "Clinical", ##数据分类为临床
                             data.type = "Pathology report", ## 数据类型为病理学报告
                             legacy = TRUE, 
                             barcode = c("TCGA-RU-A8FL","TCGA-AA-3972") ##制定患者编号
                             ) 
    

    我们可以看下查询的内容,提示PDF是open状态。

    getResults(query.legacy)[, 1:4]
    
    row id data_format access cases
    7 a4753077-2bd3-4301-8424-b7575c8ccd66 PDF open TCGA-RU-A8FL
    365 b77a41e9-cf0d-4b94-9576-09e91b6d8f61 PDF open TCGA-AA-3972

    下载的话,只需要一个GDCdownload()函数即可

    GDCdownload(query.legacy)
    

    接着就是等待自动下载,这个根据网络而已,由于pdf的格式较小,下载速度还是比较快的,之后就会在目标文件夹新生成一个GDCdata的文件夹,再往下分别是/TCGA-COAD/legacy/Clinical,这里有两个文件夹,打开后里面就是我们需要的pdf报告了。


    image.png
    image.png
    pdf

    获取组织学切片图像(SVS格式)

    TCGA的组织学切片图像,包括了组织切片(Tissue slide image)和诊断切片(Diagnostic Slide)两种,数据库有legacy和harmonized 两种类型,结果都是一样的。我们可以通过查询函数进行更多细节的提取,但是由于SVS格式一般都很大,我运行的这个有100M以上,所以下载图像数据也是非常考验网速的,我们可以试着下载一两个数据。。
    先建立查询

    # 从legacy数据库获取组织学切片图片文件
    query.legacy <- GDCquery(project = "TCGA-COAD", 
                             data.category = "Clinical", 
                             data.type = "Tissue slide image",
                             legacy = TRUE,
                             barcode = c("TCGA-RU-A8FL","TCGA-AA-3972")) 
    
    # 从harmonized数据库获取组织学切片图片文件
    query.harmonized <- GDCquery(project = "TCGA-OV",
                                 data.category = "Biospecimen",
                                 data.type = 'Slide Image')
    
    ## 从harmonized数据库获取诊断性切片图片
    query.harmonized2 <- GDCquery(project = "TCGA-COAD", 
                                 data.category = "Biospecimen", 
                                 data.type = "Slide Image",
                                 experimental.strategy = "Diagnostic Slide",
                                 barcode = c("TCGA-RU-A8FL","TCGA-AA-3972"))  
    

    之后就是下载数据了,比如我们下载query.harmonized2的SVS图片

    GDCdownload(query.harmonized2)
    

    接下来,就是漫长的等待,我这个数据是145.7M,大概用了20分钟才下载完成。


    image.png

    打开SVS格式的图片需要专门的阅读器,这个搞病理学的应该懂
    网上有关于病理学图片的机器学习的文章,如果想从这个方向入手的话,就慢慢下载数据吧。。。。

    相关文章

      网友评论

          本文标题:利用TCGAbiolinks下载病理学报告(PDF)和切片图像(

          本文链接:https://www.haomeiwen.com/subject/nzystdtx.html