战拖打卡3
今天的任务是多数据集的合并和批次效应的移除。
数据集合并
方法
- rbind 行合并
- cbind 列合并
- merge
merge(data1,data2,by="id",all=T) #所有数据列都放进来,空缺的补值为NA
merge(data1,data2,by="id",all=F) # 只取两者的共有的部分
-
dplyr包
dplyr combine.png
merge_eset <- inner_join (eset1,eset2, by='symbol')
批次效应
批次效应是指样品在不同批次中处理和测量产生的与试验期间记录的任何生物变异无关的技术差异。
去除基因表达量批次效应的主要方法有removeBatchEffect(limma包)、ComBat方法(sva包)、替代变量分析法、距离加权判别法和基于比值的方法等,
需要注意的
1.批次效应不能被消除,只有尽可能的降低;
2.批次因素和分组因素可能重叠,所以直接对原数据矫正批次可能会抵消一部分真实生物学因素;
3.使用removeBatchEffect或者ComBat函数后得到的表达数据,仅可用于衔接可视化(如聚类、PCA等),可视化展示;不能将去批次后的数据用于差异分析!
4.如果想要在鉴定差异基因的过程中降低批次效应,将批次加入到design中。
disign = ~ batch + groups
网友评论