美文网首页TCGA
TCGA数据挖掘笔记1

TCGA数据挖掘笔记1

作者: 超级可爱的懂事长鸭 | 来源:发表于2021-04-09 15:59 被阅读0次

    生信技能树2021数据挖掘线上课笔记,需要结合课程讲解服用

    1. TCGA下载数据的方法
      -gdc-client(软件名):需要写命令运行,官方下载的数据,下载的数据是零散的,每个病人的每个样本单独组织


      GDC.png

    xml:储存单个样本的临床信息,需整理为临床信息的表格
    counts:储存单个样本表达数据,需整理为表达矩阵(RNA-seq)
    json文件:出现样本文件的详细信息,含有样本ID和counts文件对应的信息

    样本分组.png

    分组信息,病人ID前12为ID,第14-15位,<10tumor,>=10normal

    -xena(网页):在线工具,打包下载,可能会遇到网络问题;选GDC数据,可网页下载或者用R下载

    -GDCRNAtools(R包):仅适用于GDC
    http://bioconductor.org/packages/devel/bioc/vignettes/GDCRNATools/inst/doc/GDCRNATools.html

    2.下载并整理数据后得到表达矩阵,后进行差异分析(转录组差异分析的3个金标准R包):
    -edgeR
    -DEseq2
    -limma

    3.转录组数据分析的起点:counts矩阵-reads计数数据


    image.png

    最优的选择是拿counts做分析

    相关文章

      网友评论

        本文标题:TCGA数据挖掘笔记1

        本文链接:https://www.haomeiwen.com/subject/gzvskltx.html