文章
AURKA, TOP2A and MELK are the key genes identified by WGCNA for the pathogenesis of lung adenocarcinoma
发表日期:2023-04-19
分析流程

这篇文章的数据分析相对来说比较常规,主要是WGCNA分析,对于没有高分需求的朋友们,加一些简单的验证实验就能发SCI也是不错的选择。
一 下载GEO数据


在excel中对这个文件进行处理,提取出表达量和临床信息;
需要整理好的数据可以后台留言给我;
二 处理GEO数据
1 读取数据
data=read.csv('./data/GSE140797_expr.csv',header = T)
rownames(data)=data$ID_REF
data=data[,-1]
boxplot(data)

2 ID转换
ids=read.csv('./data/GPL13497-9755.csv',header = T)
#查看一下有没有NA值
table(is.na(ids))
ids=na.omit(ids)
#去掉空的GENE_SYMBOL
ids=ids[ids$GENE_SYMBOL != '',]
table(ids$ID %in% rownames(data))
data=data[rownames(data) %in% ids$ID,]
data=data[match(rownames(data),ids$ID),]
identical(rownames(data),ids$ID)
#去重复基因,保留最大表达量的结果
table(!duplicated(ids$GENE_SYMBOL))
ids$median=apply(data,1,median) #取每一行的中位数
ids=ids[order(ids$GENE_SYMBOL,ids$median,decreasing = T),]#对中位数从大到小排列的顺序排序
ids=ids[!duplicated(ids$GENE_SYMBOL),]#去除重复的gene ,保留每个基因最大表达量结果
#最终表达矩阵
data=data[ids$ID,]
identical(rownames(data),ids$ID)
rownames(data)=ids$GENE_SYMBOL
3 临床分组
下一步做差异分析需要分组
data_clin=read.csv('./data/GSE140797_clinical.csv',header = T)
rownames(data_clin)=data_clin$Sample_geo_accession
data_clin=data_clin[,-1]
data_clin=as.data.frame(t(data_clin))
group_list=ifelse(grepl('normal',data_clin$Sample_characteristics_ch1),'normal','tumor')
table(group_list)
#保存
save(data,group_list,file = './Rdata/exp_group.Rdata')
网友评论