estimate包可以通过RNA-seq的数据来计算标本的免疫及机制评分,进而评估肿瘤的纯度,其原理通过特征的肿瘤的RNA-seq的signture来评估以上内容,其输入文件需要的为RNA-seq的矩阵,内在还是需要common_genes-data来计算。以下详细解读这个包的常用函数的用法并计算评分
首先按照包
install.packages("estimate", repos="http://R-Forge.R-project.org")
library(estimate)
首先应用自带的内在数据集
OvarianCancerExpr <- system.file("extdata", "sample_input.txt", package="estimate")
read.table(OvarianCancerExpr)[1:4,1:4]
内置数据集,行名为样本名,列名为基因的symbol
下面我们应用filterCommonGenes这个函数来取我们自己的表达矩阵与作者gene data set 的交集
filterCommonGenes(input.f=OvarianCancerExpr,#输入文件,为自己的表达矩阵
output.f="OV_10412genes.gct",#定义输出到工作目录的输出文件名,后缀为gct
id="GeneSymbol")#我们数据集的列名为GeneSymbol,因此这里选择拿GeneSymbol进行匹配
以下我们看下生成的OV_10412genes.gct文件
rt<-read.table("OV_10412genes.gct",
skip = 2,
header = TRUE,
sep = "\t")
View(rt)
保留前2行的时候数据模式,可以看到有10412个基因,10个样本
去掉前2行后,可以看到剩下的数据为一个新的数据集矩阵
estimate包内其实包含了内置的共有基因的数据集,名称为common_genes,以下我们来看下
data("common_genes")
View(common_genes)
包里内置的common genes
从这个数据集可以看出,在filterCommonGenes函数中参数id我们还可以选择EntrezID
之后estimateScore函数计算各种免疫及基质评分
estimateScore(input.ds = "OV_10412genes.gct", #刚才过滤得到的输入文件
output.ds="estimateScore.gct", #输出的输出文件
platform="affymetrix") #注意平台,如果为TCGA或者测序数据则选择illumina
这是这个包的主要函数,下图为改函数的用法
注意不同平台的选择不同,我们为测序数据
以下整理数据的格式
estimateScore.gct文件的原始模式,可以看到,前2行为注释行scores=read.table("estimateScore.gct",#读取文件
skip = 2,#删除前2行
header = T)#第一行为列名
View(scores)
scores数据集模式,可以看到,列名为样本名,行名为三种评分的名称
rownames(scores)=scores[,1]#取第一列为行名
scores=t(scores[,3:ncol(scores)])#取3列到最后1列的数据并进行数据转置
View(scores)
最后这里好的数据集,行名为样本名,列名为三种评分
网友评论