多组学关联分析实操（二）| O2PLS

作者: 百易汇能 | 来源:发表于2023-06-11 08:49 被阅读0次

易基因 -【第9期】多组学关联分析方法及应用案例
沈阳会计实操：会计实操代理记账培训多少钱
不懂要问，不会要学（151）
非因解读| Digital Spatial Profiler数字
CNV分析学习笔记
实操Redission
多组学分析及可视化R包
eGPS使用示例二
多组学分析_汇总
2017-10-26

之前我们了解了基于相关性进行的一些多组学关联分析。那么在SCI论文中，还有一些比较受欢迎的多组学联合分析方法——机器学习。接下来，小易带大家学习下多组学关联分析“重器”—— O2PLS。

O2PLS简介

O2PLS方法全称为Two-Way Orthogonal PLS，即双向正交偏最小二乘法。该方法同PCA, PLS and CCA等方法相比，考虑了不同场景下数据集中的大小，规模，分布和实验误差等因素，建模过程中考虑了不同数据集间 joint, specific和residual三部分，适用于复杂场景下的数据挖掘，属于非监督建模的一种。

O2PLS方法的R语言版本于2018年发表于BMC Bioinformatics杂志，可用于挖掘多组学不同维度数据间的关联特征。

该模型构建包括三个步骤：

1）交叉验证（Cross-validating）：确定O2PLS成分个数；

2 ）拟合(fitting）：拟合O2PLS模型；

3 ）归纳及可视化（Summarizing & visualizing）：对结果进行总结及可视化。

O2PLS应用实践

我们以代谢组与微生物为例，使用O2PLS进行关联分析。

1 输入文件准备

1.1 代谢组含量数据示例

1.2 微生物丰度表示例

该方法先对微生物和代谢的数据进行UV scaling预处理，再构建群落和代谢O2PLS模型，计算每个样本的得分，得到联合得分图；然后计算每种微生物和代谢物的载荷值，得到载荷图。联合得分图指示了两个数据矩阵之间的关系，具有高载荷值的代谢物/微生物被认为是两个数据集相似性所必需的。最后可选择前两个维度载荷值长度 top（基于自己需要，可以选择top10~20）代谢物/微生物（关联程度最大）进一步分析绘制柱状图、热图等。

2 代码实操

2.1 导入数据及数据标准化

library("OmicsPLS")

library(magrittr) # needs to be run every time you start R and want to use %>%

library(ggplot2)

tax<-read.delim("/O2PLS/genus.tsv",

comment.char = "", header = T, sep = "\t",row.names=1)

met<-read.table("/O2PLS/neg.metabolites.tsv", comment.char = "",

header = T, sep = "\t", quote = "", row.names=1)

tax = scale(tax, scale=F)

met = scale(met, scale=F)

2.2 模型训练

set.seed(123)

crossval_o2m(tax, met, 2:5,1:3,1:3,nr_folds = 10) #10折交叉验证

modelfit<-o2m(tax, met, 2, 3, 1) #基于交叉验证结果确定成分数目参数

print (modelfit)

2.3 自变量物种变量筛选

xj<- loadings(modelfit, "Xjoint", 1:2) %>% abs %>% rowSums

xj[-(order(xj,decreasing=T)[1:5])] = 0

xj <- sign(xj)

print(xj)

plot(modelfit, loading_name="Xj", i=1, j=2, label = "c", use_ggplot2 = TRUE,

alpha = xj,

aes(label = stringr::str_sub(colnames(tax), start = 1)),size=4,col='red')+

theme_bw() +

coord_fixed(1, c(-1,1),c(-1,1)) +

geom_point(alpha = 0.5+0.5*xj, col = 'blue',size=1.5) +

labs(title = "taxonomy joint loadings",

x = "First Joint Loadings", y = "Second Joint Loadings") +

theme(plot.title = element_text(face='bold')

2.4 因变量代谢物筛选

yj<- loadings(modelfit, "Yjoint", 1:2) %>% abs %>% rowSums

yj[-(order(yj,decreasing=T)[1:10])] = 0

yj <- sign(yj)

print (yj)

plot(modelfit, loading_name="Yj", i=1, j=2, label = "c", use_ggplot2 = TRUE,

alpha = yj,

aes(label = stringr::str_sub(colnames(met), start = 1)),size=4,col='red')+

theme_bw() +

coord_fixed(1, c(-1,1),c(-1,1)) +

geom_point(alpha = 0.5+0.5*yj, col = 'blue',size=1.5) +

labs(title ="metabolite joint loadings",

x = "First Joint Loadings", y = "Second Joint Loadings") +

theme(plot.title = element_text(face='bold'))

物种数据与代谢组数据分别进行载荷图分析，可基于自变量Xjoint和因变量Yjoint分别筛选外圈存在强关联的物种或代谢物，如top10、top20等。

2.5 结果展示

图物种载荷图

图代谢物载荷图

筛选出外圈存在强关联的物种和代谢物，就可以进行热图分析展示了。

网友评论

本文标题：多组学关联分析实操（二）| O2PLS

本文链接：https://www.haomeiwen.com/subject/pkuxydtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

多组学关联分析实操（二）| O2PLS

相关文章

易基因 -【第9期】多组学关联分析方法及应用案例

沈阳会计实操：会计实操代理记账培训多少钱

不懂要问，不会要学（151）

非因解读| Digital Spatial Profiler数字

CNV分析学习笔记

实操Redission

多组学分析及可视化R包

eGPS使用示例二

多组学分析_汇总

2017-10-26

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读