tmp = apply(clinical, 2, function(x){all(is.na(x)|x=="")})
#把clinical文件中全部是NA或者空字符串的列全部去掉。
all(x>0) #表示所有的x是否均大于0
any(x>0) #表示是否存在x>0的情况
all(is.na(x) ) #是否每个元素都是na
all(is.na(x)|x=="") 是否每个元素均为na或者空字符串
若TCGA中的count值,不是整数时:
exp3 = read.table("TCGA-CHOL.htseq_counts.tsv.gz",header = T,row.names = 1,check.names = F)
exp3 = as.matrix(exp3)
tmp = 2^exp3 -1
tmp = apply(tmp, 2, as.integer)
clinical3 = data.table::fread("TCGA-CHOL.GDC_phenotype.tsv.gz")
suvi = data.table::fread("TCGA-CHOL.survival.tsv.gz")
dim(exp3)
exp3 = exp3[apply(exp3, 1, function(x) sum(x > 1) > 9), ]
dim(exp3)
exp3[1:4,1:4]
clinical3[1:4,1:4]
TCGA差异分析后查看是否对照与tumor组分组相反的方法就是取任意一个基因做箱线图。
boxplot(y~x)
y= as.numeric(exp[rownames(DEG)[1],])
x=group_list
boxplot(y~x)
TCGA中的数据在画热图时候需要标准化,不然数据差异太大
#方法1
n=dat[cg1,]
pheatmap::pheatmap(n,show_rownames=F
#方法2
网友评论