生信技能树2021数据挖掘线上课笔记,需要结合课程讲解服用
-
TCGA下载数据的方法
-gdc-client(软件名):需要写命令运行,官方下载的数据,下载的数据是零散的,每个病人的每个样本单独组织
GDC.png
样本分组.pngxml:储存单个样本的临床信息,需整理为临床信息的表格
counts:储存单个样本表达数据,需整理为表达矩阵(RNA-seq)
json文件:出现样本文件的详细信息,含有样本ID和counts文件对应的信息
分组信息,病人ID前12为ID,第14-15位,<10tumor,>=10normal
-xena(网页):在线工具,打包下载,可能会遇到网络问题;选GDC数据,可网页下载或者用R下载
-GDCRNAtools(R包):仅适用于GDC
http://bioconductor.org/packages/devel/bioc/vignettes/GDCRNATools/inst/doc/GDCRNATools.html
2.下载并整理数据后得到表达矩阵,后进行差异分析(转录组差异分析的3个金标准R包):
-edgeR
-DEseq2
-limma
3.转录组数据分析的起点:counts矩阵-reads计数数据
image.png
最优的选择是拿counts做分析
网友评论