美文网首页
多组学关联分析实操(二)| O2PLS

多组学关联分析实操(二)| O2PLS

作者: 百易汇能 | 来源:发表于2023-06-11 08:49 被阅读0次

       之前我们了解了基于相关性进行的一些多组学关联分析。那么在SCI论文中,还有一些比较受欢迎的多组学联合分析方法——机器学习。接下来,小易带大家学习下多组学关联分析“重器”—— O2PLS。

O2PLS简介

      O2PLS方法全称为Two-Way Orthogonal PLS,即双向正交偏最小二乘法。该方法同PCA, PLS and CCA等方法相比,考虑了不同场景下数据集中的大小,规模,分布和实验误差等因素,建模过程中考虑了不同数据集间 joint, specific和residual三部分,适用于复杂场景下的数据挖掘,属于非监督建模的一种。

      O2PLS方法的R语言版本于2018年发表于BMC Bioinformatics杂志,可用于挖掘多组学不同维度数据间的关联特征。

      该模型构建包括三个步骤:

1)交叉验证(Cross-validating):确定O2PLS成分个数;

2 )拟合(fitting):拟合O2PLS模型;

3 )归纳及可视化(Summarizing & visualizing):对结果进行总结及可视化。

O2PLS应用实践

      我们以代谢组与微生物为例,使用O2PLS进行关联分析。

1 输入文件准备

1.1 代谢组含量数据示例

1.2 微生物丰度表示例

      该方法先对微生物和代谢的数据进行UV scaling预处理,再构建群落和代谢O2PLS模型,计算每个样本的得分,得到联合得分图;然后计算每种微生物和代谢物的载荷值,得到载荷图。联合得分图指示了两个数据矩阵之间的关系,具有高载荷值的代谢物/微生物被认为是两个数据集相似性所必需的。最后可选择前两个维度载荷值长度 top(基于自己需要,可以选择top10~20) 代谢物/微生物(关联程度最大)进一步分析绘制柱状图、热图等。

2 代码实操

2.1 导入数据及数据标准化

library("OmicsPLS")

library(magrittr) # needs to be run every time you start R and want to use %>%

library(ggplot2)

tax<-read.delim("/O2PLS/genus.tsv",

                comment.char = "", header = T, sep = "\t",row.names=1)

met<-read.table("/O2PLS/neg.metabolites.tsv", comment.char = "",

                header = T, sep = "\t", quote = "", row.names=1)

tax = scale(tax, scale=F)

met = scale(met, scale=F)

2.2 模型训练

set.seed(123)

crossval_o2m(tax, met, 2:5,1:3,1:3,nr_folds = 10) #10折交叉验证

modelfit<-o2m(tax, met, 2, 3, 1)  #基于交叉验证结果确定成分数目参数

print (modelfit)

2.3 自变量物种变量筛选

xj<- loadings(modelfit, "Xjoint", 1:2) %>% abs %>% rowSums

xj[-(order(xj,decreasing=T)[1:5])] = 0

xj <- sign(xj)

print(xj)

plot(modelfit, loading_name="Xj", i=1, j=2, label = "c", use_ggplot2 = TRUE,

              alpha = xj,

              aes(label = stringr::str_sub(colnames(tax), start = 1)),size=4,col='red')+

  theme_bw() +

  coord_fixed(1, c(-1,1),c(-1,1)) +

  geom_point(alpha = 0.5+0.5*xj, col = 'blue',size=1.5) +

  labs(title = "taxonomy joint loadings",

      x = "First Joint Loadings", y = "Second Joint Loadings") +

  theme(plot.title = element_text(face='bold')

2.4 因变量代谢物筛选

yj<- loadings(modelfit, "Yjoint", 1:2) %>% abs %>% rowSums

yj[-(order(yj,decreasing=T)[1:10])] = 0

yj <- sign(yj)

print (yj)

plot(modelfit, loading_name="Yj", i=1, j=2, label = "c", use_ggplot2 = TRUE,

      alpha = yj,

      aes(label = stringr::str_sub(colnames(met), start = 1)),size=4,col='red')+

  theme_bw() +

  coord_fixed(1, c(-1,1),c(-1,1)) +

  geom_point(alpha = 0.5+0.5*yj, col = 'blue',size=1.5) +

  labs(title ="metabolite joint loadings",

        x = "First Joint Loadings", y = "Second Joint Loadings") +

  theme(plot.title = element_text(face='bold'))

      物种数据与代谢组数据分别进行载荷图分析,可基于自变量Xjoint和因变量Yjoint分别筛选外圈存在强关联的物种或代谢物,如top10、top20等。

2.5 结果展示

图 物种载荷图 图 代谢物载荷图

      筛选出外圈存在强关联的物种和代谢物,就可以进行热图分析展示了。

相关文章

  • 易基因 -【第9期】多组学关联分析方法及应用案例

    本节课可以学到:1.什么是关联分析?2.关联分析的主要套路。3.关联分析方法介绍。4.多组学关联分析方法总结等相关知识~

  • 沈阳会计实操:会计实操代理记账培训多少钱

    沈阳会计实操:学做账实操培训去哪里?对于会计实操的培训学校只有几个内容需要考虑,一个课时,二是老师经验,三是价格,...

  • 不懂要问,不会要学(151)

    最近在学股票的公司分析,每天的课后作业除了实操以外还有分析结论,对于我这种数据白痴来讲,分析数据实在是找不到关联的...

  • 非因解读| Digital Spatial Profiler数字

    Digital Spatial Profiler 数字空间多组学技术的应用 非因生物的数字空间多组学分析系统(Di...

  • CNV分析学习笔记

    引言: CNV分析是多组学分析中重要的一环。可以基于CNV进行聚类分析,从而探究某些特定CNV与临床特征的关联(如...

  • 实操Redission

    实操Redission 分布式对象(一)实操Redission 分布式Map集合(二)实操Redission 分布...

  • 多组学分析及可视化R包

    最近打算开始写一个多组学(包括宏基因组/16S/转录组/蛋白组/代谢组)关联分析的R包,避免重复造轮子,在开始之前...

  • eGPS使用示例二

    专题汇总 <一> 科学家发布生物进化与多组学综合分析软件<二> eGPS开篇与使用示例一 背景——生物分析软件的使...

  • 多组学分析_汇总

    多组学分析是热点同时也是难点,如何利用多组学整合分析有诸多优势。单一组学分析方法可以提供不同生命进程或者疾病组与正...

  • 2017-10-26

    股权激励实操方案设计要点分析

网友评论

      本文标题:多组学关联分析实操(二)| O2PLS

      本文链接:https://www.haomeiwen.com/subject/pkuxydtx.html