我在生信技能树多次写教程分享WGCNA的实战细节,见:
提到过,只需要基因的表达量是适合计算相关性的即可,如果是 原始 counts值,可以直接转为 log(cpm+1) 的格式 ,更为重要的其实是挑选多少个基因进入后续的wgcna流程。但,实际上不同归一化方法很明显会影响基因表达量的相关性,rpkm,fpkm,tmp,counts以及它们的log与否,都是有影响的。不知道有没有人愿意来探索一下,到底哪一种形式最适合做WGCNA分析呢,评价指标是什么,金标准又是什么?这样的探索能算一个科研课题吗?能发SCI文章吗,如果做完了并且勇于写出来?
我相信,如果仅仅是为了发一个公众号,大家是不可能抽出时间来的!
不同归一化方式影响很多统计学指标
不仅仅是会影响基因之间的表达量相关性,而且通常我们的做wgcna会根据mad值来挑选top5000或者10000的基因,log与否的表达矩阵就会影响mad值,而且还影响了mad值排序,影响排序就影响了从top MAD筛选基因这个策略。
比如,如下代码:
rm(list = ls()) ## 魔幻操作,一键清空~
options(stringsAsFactors = F)#在调用as.data.frame的时,将stringsAsFactors设置为F
expr <- read.table('expr_rpkm.txt',
sep = '\t',header = T,row.names = 1)
expr[1:4,1:4]
g1=rownames(expr)[order(apply(expr,1,mad),
decreasing = T)[1:5000]]
expr=log2(expr+1)
g2=rownames(expr)[order(apply(expr,1,mad),
decreasing = T)[1:5000]]
length(intersect(g1,g2))
# 3333 个基因是overlap的
很明显,log前后的表达矩阵的top 5000的MAD基因,虽然说有3333 个基因是overlap的,比例很高。
但是毕竟差异也不小,就给人一种感觉,生物信息学分析是不靠谱的。
换一个统计学方法,换一个阈值,换一个人来做,就不一样了!
你觉得呢?
WGCNA免费做
我们推文里面提到的各种各样的数据分析环节都是我非常有经验的,比如我在lncRNA的一些基础知识 ,和lncRNA芯片的一般分析流程 介绍过的那些图表,以及下面的目录的分析内容 对我来说是举手之劳,希望可以帮助到你!
- 转录组数据分析的4个维度认识(数据分析继续免费哦) RNA-seq数据的2个分组差异分析,热图,PCA图,火山图等等
- 根据感兴趣基因看肝癌免疫微环境的T细胞亚群差异 条形图或者箱线图
- 查看感兴趣基因的甲基化水平和RNA表达水平(数据分析免费做)相关性 散点图或者箱线图
- 我不相信kmplot这个网页工具的结果(生存分析免费做)
- 单基因GSEA分析策略(数据分析免费做活动继续)
- 干扰一个基因然后分析全局基因表达其实是无法定位该基因完整功能(春节免费数据分析活动继续)
同样的,本次活动我可以帮你免费做一次WGCNA分析,但是呢,我也没办法保证结果咋样,有时候数据集就是这样。
还是老规矩,发送数据分析要求,以及简短的项目描述到我的邮箱 jmzeng1314@163.com
邮件正文最好是加上你是啥时候认识生信技能树的哦,或者其它一些寒暄的话,自我介绍也行。主要是考虑到可能想免费分析数据的朋友很多,所以会根据你的来信,我主观判定一个优先级哦。目前我有20多个愿意长期在我的指导下进行数据探索的学徒,等我的团队扩大到200人,我们应该是可以做到数据分析全部免费,敬请期待哈!
网友评论