之前我们了解了基于相关性进行的一些多组学关联分析。那么在SCI论文中,还有一些比较受欢迎的多组学联合分析方法——机器学习。接下来,小易带大家学习下多组学关联分析“重器”—— O2PLS。
O2PLS简介
O2PLS方法全称为Two-Way Orthogonal PLS,即双向正交偏最小二乘法。该方法同PCA, PLS and CCA等方法相比,考虑了不同场景下数据集中的大小,规模,分布和实验误差等因素,建模过程中考虑了不同数据集间 joint, specific和residual三部分,适用于复杂场景下的数据挖掘,属于非监督建模的一种。
O2PLS方法的R语言版本于2018年发表于BMC Bioinformatics杂志,可用于挖掘多组学不同维度数据间的关联特征。
该模型构建包括三个步骤:
1)交叉验证(Cross-validating):确定O2PLS成分个数;
2 )拟合(fitting):拟合O2PLS模型;
3 )归纳及可视化(Summarizing & visualizing):对结果进行总结及可视化。

O2PLS应用实践
我们以代谢组与微生物为例,使用O2PLS进行关联分析。
1 输入文件准备
1.1 代谢组含量数据示例

1.2 微生物丰度表示例

该方法先对微生物和代谢的数据进行UV scaling预处理,再构建群落和代谢O2PLS模型,计算每个样本的得分,得到联合得分图;然后计算每种微生物和代谢物的载荷值,得到载荷图。联合得分图指示了两个数据矩阵之间的关系,具有高载荷值的代谢物/微生物被认为是两个数据集相似性所必需的。最后可选择前两个维度载荷值长度 top(基于自己需要,可以选择top10~20) 代谢物/微生物(关联程度最大)进一步分析绘制柱状图、热图等。
2 代码实操
2.1 导入数据及数据标准化
library("OmicsPLS")
library(magrittr) # needs to be run every time you start R and want to use %>%
library(ggplot2)
tax<-read.delim("/O2PLS/genus.tsv",
comment.char = "", header = T, sep = "\t",row.names=1)
met<-read.table("/O2PLS/neg.metabolites.tsv", comment.char = "",
header = T, sep = "\t", quote = "", row.names=1)
tax = scale(tax, scale=F)
met = scale(met, scale=F)
2.2 模型训练
set.seed(123)
crossval_o2m(tax, met, 2:5,1:3,1:3,nr_folds = 10) #10折交叉验证
modelfit<-o2m(tax, met, 2, 3, 1) #基于交叉验证结果确定成分数目参数
print (modelfit)
2.3 自变量物种变量筛选
xj<- loadings(modelfit, "Xjoint", 1:2) %>% abs %>% rowSums
xj[-(order(xj,decreasing=T)[1:5])] = 0
xj <- sign(xj)
print(xj)
plot(modelfit, loading_name="Xj", i=1, j=2, label = "c", use_ggplot2 = TRUE,
alpha = xj,
aes(label = stringr::str_sub(colnames(tax), start = 1)),size=4,col='red')+
theme_bw() +
coord_fixed(1, c(-1,1),c(-1,1)) +
geom_point(alpha = 0.5+0.5*xj, col = 'blue',size=1.5) +
labs(title = "taxonomy joint loadings",
x = "First Joint Loadings", y = "Second Joint Loadings") +
theme(plot.title = element_text(face='bold')
2.4 因变量代谢物筛选
yj<- loadings(modelfit, "Yjoint", 1:2) %>% abs %>% rowSums
yj[-(order(yj,decreasing=T)[1:10])] = 0
yj <- sign(yj)
print (yj)
plot(modelfit, loading_name="Yj", i=1, j=2, label = "c", use_ggplot2 = TRUE,
alpha = yj,
aes(label = stringr::str_sub(colnames(met), start = 1)),size=4,col='red')+
theme_bw() +
coord_fixed(1, c(-1,1),c(-1,1)) +
geom_point(alpha = 0.5+0.5*yj, col = 'blue',size=1.5) +
labs(title ="metabolite joint loadings",
x = "First Joint Loadings", y = "Second Joint Loadings") +
theme(plot.title = element_text(face='bold'))
物种数据与代谢组数据分别进行载荷图分析,可基于自变量Xjoint和因变量Yjoint分别筛选外圈存在强关联的物种或代谢物,如top10、top20等。
2.5 结果展示


筛选出外圈存在强关联的物种和代谢物,就可以进行热图分析展示了。
网友评论