美文网首页
复现一篇WGCNA文章(含代码)(一)

复现一篇WGCNA文章(含代码)(一)

作者: 生信开荒牛 | 来源:发表于2023-10-06 13:52 被阅读0次

文章

AURKA, TOP2A and MELK are the key genes identified by WGCNA for the pathogenesis of lung adenocarcinoma

发表日期:2023-04-19

分析流程

1.png

这篇文章的数据分析相对来说比较常规,主要是WGCNA分析,对于没有高分需求的朋友们,加一些简单的验证实验就能发SCI也是不错的选择。

一 下载GEO数据

GEO:GSE140797以及 GPL13497

2.png 3.png

在excel中对这个文件进行处理,提取出表达量和临床信息;
需要整理好的数据可以后台留言给我;

二 处理GEO数据

1 读取数据

data=read.csv('./data/GSE140797_expr.csv',header = T)
rownames(data)=data$ID_REF
data=data[,-1]
boxplot(data)
4.png

2 ID转换

ids=read.csv('./data/GPL13497-9755.csv',header = T)
#查看一下有没有NA值
table(is.na(ids))
ids=na.omit(ids)
#去掉空的GENE_SYMBOL
ids=ids[ids$GENE_SYMBOL != '',]
table(ids$ID %in% rownames(data))
data=data[rownames(data) %in% ids$ID,]
data=data[match(rownames(data),ids$ID),]
identical(rownames(data),ids$ID)
#去重复基因,保留最大表达量的结果
table(!duplicated(ids$GENE_SYMBOL))
ids$median=apply(data,1,median) #取每一行的中位数
ids=ids[order(ids$GENE_SYMBOL,ids$median,decreasing = T),]#对中位数从大到小排列的顺序排序
ids=ids[!duplicated(ids$GENE_SYMBOL),]#去除重复的gene ,保留每个基因最大表达量结果
#最终表达矩阵
data=data[ids$ID,]
identical(rownames(data),ids$ID)
rownames(data)=ids$GENE_SYMBOL

3 临床分组

下一步做差异分析需要分组

data_clin=read.csv('./data/GSE140797_clinical.csv',header = T)
rownames(data_clin)=data_clin$Sample_geo_accession
data_clin=data_clin[,-1]
data_clin=as.data.frame(t(data_clin))
group_list=ifelse(grepl('normal',data_clin$Sample_characteristics_ch1),'normal','tumor')
table(group_list)
#保存
save(data,group_list,file = './Rdata/exp_group.Rdata')

相关文章

网友评论

      本文标题:复现一篇WGCNA文章(含代码)(一)

      本文链接:https://www.haomeiwen.com/subject/sggpbdtx.html