美文网首页
多组学关联分析实操(二)| O2PLS

多组学关联分析实操(二)| O2PLS

作者: 百易汇能 | 来源:发表于2023-06-11 08:49 被阅读0次

           之前我们了解了基于相关性进行的一些多组学关联分析。那么在SCI论文中,还有一些比较受欢迎的多组学联合分析方法——机器学习。接下来,小易带大家学习下多组学关联分析“重器”—— O2PLS。

    O2PLS简介

          O2PLS方法全称为Two-Way Orthogonal PLS,即双向正交偏最小二乘法。该方法同PCA, PLS and CCA等方法相比,考虑了不同场景下数据集中的大小,规模,分布和实验误差等因素,建模过程中考虑了不同数据集间 joint, specific和residual三部分,适用于复杂场景下的数据挖掘,属于非监督建模的一种。

          O2PLS方法的R语言版本于2018年发表于BMC Bioinformatics杂志,可用于挖掘多组学不同维度数据间的关联特征。

          该模型构建包括三个步骤:

    1)交叉验证(Cross-validating):确定O2PLS成分个数;

    2 )拟合(fitting):拟合O2PLS模型;

    3 )归纳及可视化(Summarizing & visualizing):对结果进行总结及可视化。

    O2PLS应用实践

          我们以代谢组与微生物为例,使用O2PLS进行关联分析。

    1 输入文件准备

    1.1 代谢组含量数据示例

    1.2 微生物丰度表示例

          该方法先对微生物和代谢的数据进行UV scaling预处理,再构建群落和代谢O2PLS模型,计算每个样本的得分,得到联合得分图;然后计算每种微生物和代谢物的载荷值,得到载荷图。联合得分图指示了两个数据矩阵之间的关系,具有高载荷值的代谢物/微生物被认为是两个数据集相似性所必需的。最后可选择前两个维度载荷值长度 top(基于自己需要,可以选择top10~20) 代谢物/微生物(关联程度最大)进一步分析绘制柱状图、热图等。

    2 代码实操

    2.1 导入数据及数据标准化

    library("OmicsPLS")

    library(magrittr) # needs to be run every time you start R and want to use %>%

    library(ggplot2)

    tax<-read.delim("/O2PLS/genus.tsv",

                    comment.char = "", header = T, sep = "\t",row.names=1)

    met<-read.table("/O2PLS/neg.metabolites.tsv", comment.char = "",

                    header = T, sep = "\t", quote = "", row.names=1)

    tax = scale(tax, scale=F)

    met = scale(met, scale=F)

    2.2 模型训练

    set.seed(123)

    crossval_o2m(tax, met, 2:5,1:3,1:3,nr_folds = 10) #10折交叉验证

    modelfit<-o2m(tax, met, 2, 3, 1)  #基于交叉验证结果确定成分数目参数

    print (modelfit)

    2.3 自变量物种变量筛选

    xj<- loadings(modelfit, "Xjoint", 1:2) %>% abs %>% rowSums

    xj[-(order(xj,decreasing=T)[1:5])] = 0

    xj <- sign(xj)

    print(xj)

    plot(modelfit, loading_name="Xj", i=1, j=2, label = "c", use_ggplot2 = TRUE,

                  alpha = xj,

                  aes(label = stringr::str_sub(colnames(tax), start = 1)),size=4,col='red')+

      theme_bw() +

      coord_fixed(1, c(-1,1),c(-1,1)) +

      geom_point(alpha = 0.5+0.5*xj, col = 'blue',size=1.5) +

      labs(title = "taxonomy joint loadings",

          x = "First Joint Loadings", y = "Second Joint Loadings") +

      theme(plot.title = element_text(face='bold')

    2.4 因变量代谢物筛选

    yj<- loadings(modelfit, "Yjoint", 1:2) %>% abs %>% rowSums

    yj[-(order(yj,decreasing=T)[1:10])] = 0

    yj <- sign(yj)

    print (yj)

    plot(modelfit, loading_name="Yj", i=1, j=2, label = "c", use_ggplot2 = TRUE,

          alpha = yj,

          aes(label = stringr::str_sub(colnames(met), start = 1)),size=4,col='red')+

      theme_bw() +

      coord_fixed(1, c(-1,1),c(-1,1)) +

      geom_point(alpha = 0.5+0.5*yj, col = 'blue',size=1.5) +

      labs(title ="metabolite joint loadings",

            x = "First Joint Loadings", y = "Second Joint Loadings") +

      theme(plot.title = element_text(face='bold'))

          物种数据与代谢组数据分别进行载荷图分析,可基于自变量Xjoint和因变量Yjoint分别筛选外圈存在强关联的物种或代谢物,如top10、top20等。

    2.5 结果展示

    图 物种载荷图 图 代谢物载荷图

          筛选出外圈存在强关联的物种和代谢物,就可以进行热图分析展示了。

    相关文章

      网友评论

          本文标题:多组学关联分析实操(二)| O2PLS

          本文链接:https://www.haomeiwen.com/subject/pkuxydtx.html