美文网首页各种生信数据库TCGA
TCGA数据挖掘入门---什么是TCGA?TCGA中有哪些数据?

TCGA数据挖掘入门---什么是TCGA?TCGA中有哪些数据?

作者: Seurat_Satija | 来源:发表于2021-02-02 11:25 被阅读0次

    1. 什么是TCGA?TCGA中有哪些数据?

    TCGA的全称是The Cancer Genome Atlas, 这个项目始于2005年,它旨在使用基因测序和生物信息学编目与癌症有关的基因突变。TCGA通过利用高通量基因组分析技术,来帮助我们更好地理解癌症的遗传学基础,从而提升我们对于癌症的诊断能力和对癌症的治疗、预防。
    TCGA受美国癌症研究所(National Cancer Institute)下的癌症基因组中心和美国人类基因组研究所监管。
    TCGA包括主要进行测序的基因组表征中心(genome characterization centers, GCCs)和负责测序数据分析的基因组数据分析中心(genome data analysis centers, GDACs),到目前为止TCGA共有39种癌症的相关测序数据,涉及29种癌症器官,1万多个肿瘤样本,27万多份文件。

    2. 那么可以从TCGA中下载到哪些类型的数据呢?
    TCGA的数据类型主要有以下几种:
    (1) Clinical: 包括病人的一般情况、诊治情况、TNM分期、肿瘤病理、生存情况等。
    (2) mRNA表达数据: 通过mRNA芯片或者RNAseq测得的mRNA表达量
    (3)microRNA: microRNA芯片或者microRNA-Seq测得的microRNA表达量
    (4) Copy number variation: SNP芯片得到的肿瘤组织比对正常组织的染色体上各片段的比值
    (5) Mutation: 肿瘤组织测序结果相对参考基因组的核苷酸突变,包括插入和缺失等变化
    (6) Protein: 蛋白芯片测序得到的约200种常见癌症相关蛋白的表达量
    (7) Mythelation: 甲基化芯片测得的DNA甲基化数据,主要为27和450两种芯片的数据

    其中mRNA-Seq,miRNA-Seq以及Methylation Array被广泛使用。

    3.mRNA-Seq数据分为3种
    HTSeq-Counts;HTSeq-FPKM;HTSeq-FPKM-UQ。

    前两个比较好理解,第三个跟第二个的区别在于不同的标准化方法,公式可参考https://docs.gdc.cancer.gov/Data/Bioinformatics_Pipelines/Expression_mRNA_Pipeline/

    4.TCGA数据等级:

    level1:原始数据
    level2:处理过的数据
    level3:经过分割、解释的数据
    level4:感兴趣的区域或概要
    总而言之,前面2个层级的数据一般是拿不到的,需要权限,一般也只有国外的PI才能申请到(听说的),我们一般拿到的open数据就属于那种已经标准化后的数据。

    5.TCGA样本分类:
    除了要知道数据等级外,我们还需要了解TCGA的样本分类,比如哪个是正常样本,哪个是肿瘤样本

    一般我们可以看到样品名称如:TCGA-19-2619-10A,我们需要关注的是最后一位10A,一般来说01代表癌症样本,11代表癌旁样本。其实从01-09是tumor,癌症样本;10-29是normal,癌旁样本。只是其中分的比较细。具体可参考官网

    参考文章
    如何下载TCGA数据/TCGA数据下载小教程

    相关文章

      网友评论

        本文标题:TCGA数据挖掘入门---什么是TCGA?TCGA中有哪些数据?

        本文链接:https://www.haomeiwen.com/subject/jjtkzktx.html