10X单细胞（10X空间转录组）数据分析总结之各种NMF

作者: 单细胞空间交响乐 | 来源:发表于2021-08-24 16:08 被阅读0次

10X单细胞（10X空间转录组）轨迹分析（拟时分析）VECTOR
10X单细胞（10X空间转录组）基础算法之KL散度
10X单细胞（10X空间转录组）聚类分析之scDCC
单细胞SRR数据拆分
10X单细胞空间联合分析之十（RCTD）
Seurat分析10x Visium空间转录组数据
10X单细胞和10X空间转录组联合分析文章分享
10X单细胞（10X空间转录组）数据分析总结之各种NMF
10X单细胞（10X空间转录组）空间相关性分析和cellphon
NBIS系列单细胞转录组数据分析实战（七）：空间转录组分析

hello，大家好，今天我们来初步总结一下所有单细胞分析用到的NMF。

我们先来简单回顾一下批次矫正的方法liger。LIGER 是 19年发在 Cell 上的，算是连着自己的 resource 发了自己的计算方法。在我分享的文章中10X单细胞（空间转录组）数据整合分析批次矫正之liger中详细分享了liger，其中用到了iNMF，我们这次也要详细的讲解。

图片.png

其实liger批次矫正的核心思想是非负矩阵分解，希望两个 batch 的数据在分解中满足一定性质，共享尽可能多的信息，并且认为这部分共享的信息就是生物信息。

两个 batch 的数据可以写成如下形式，表达谱可分为 biological 信息和 technical 信息的加和。

图片.png

MNN 假设（关于MNN就不再赘述，网上说了很多了）

关于 MNN 在这个框架下的假设

$B$ 、 $W$ 正交，也就是 Biology variance 和 batch effect 所代表的的方向相互正交。

| $Bβ$ - $Bγ$ | >> | $W$ _$x$α - $W$ _$y$ζ|，即不同 Cell 之间的生物差异远大于 Batch 之间的差异时。

根据这两个假设，可以从上述的 $X$ = $X$ _$Bio$ + $X$ _$batch$ 中推导出 MNN 的目标函数。（不包括校正那一步）

LIGER

接下来我们看 LIGER 的关键部分，也就是两个非负矩阵分解，但是在分解过程中不同 batch 之间共享一组 W （可以看成代表生物 module ），另外还有一部分代表 data specific 的technical module 来 model batch effect。

image

写成数学表达式也就是

图片.png

首先在这篇文章中 gene cell 的维度和之前说的是反过来的，如果顺过来也就是

图片.png

对比上文 MNN 中的式子

图片.png

可以发现，其实 LIGER 中也就是 $B$ = $W$ 、 $Wx$ = $V$ 、 $β$ = $α$ = $H$ ，然后这些矩阵均非负。

此时再观察 LIGER 的优化目标

图片.png

可以看到还有一项是关于 $HiVi$ 的惩罚，而 $HV$ 其实是 $E$ _$batch$，这表示希望学到的 $E$ _$batch$尽可能小，反之即希望学到的 $E$ _$Bio$尽可能大，也就是保留尽量多的共享生物信息。

所以总结一下 LIGER 在之前模型上的假设

1、 $B$ = $W$ 、 $Wx$ = $V$ 、 $β$ = $α$ = $H$ ，说明给定 biological module 和technical module 之后，这个 loading 应该是大家共享的，也即说明两者有一定的关系，可以由同一个 factor loading 控制。

$HiVi$ 尽可能小，也就是说明希望这个 embedding 能够捕捉到的生物信息尽可能多。
$W$ 、 $V$ 、 $H$ 均非负，这部分其实是体现 module 的味道，非负意味着完全由加法得到，也就是每个表达谱是由这些 module 的 activity 叠加得到的。

Summary

这些模型其实都是下述模型在不同假设情况下的特列

图片.png

其实liger最核心的思想就是integrative non-negative matrix factorization (iNMF)。

接下来我们就来分享各种NMF，其实关于NMF的分享，我已经写了很多，文章在10X单细胞（10X空间转录组）之NMF的实际运用示例（探索肿瘤特征）、10X单细胞（10X空间转录组）数据分析之约束非负矩阵分解（cNMF）等，供大家参考。

首先是iNMF

我们来看 iNMF 中的目标函数为：

图片.png

其实 LIGER 就是从 iNMF 中来的（上面讲了），一模一样。但是值得说明的是， iNMF 原文目的是为了多组学的数据，也就是同一个 sample 测了多种组学，但是 LIGER 将整合多组学的方法顺延到了整合不同 batch 上（当然其实也非常明显，不同组学的区别就是 technology 不同， single cell中的 batch effect 当然也可以看做是这个）。

JNMF

而 iNMF 其实是建立在张老师 2009年这篇 JNMF 的基础上的一个延伸，文章在A novel computational framework for simultaneous integration of multiple types of genomic data to identify microRNA-gene regulatory modules，

我们来看两者的目标函数就可以非常清楚的看出这个延伸在哪。

图片.png

相比之下 JNMF 只考虑两个数据集之间共享的部分信息，对于各自特有的没有考虑，而 iNMF 考虑了这部分异质性的信息，但在优化的时候又对其做了约束，希望这个异质性的信息尽可能的小，也就是共享的信息尽可能大。（共享的信息其实是说在这个 W 张成的 common space 能尽可能的重构原来的表达谱）。

CSMF

Common and Specific patterns via Matrix Factorization ，顾名思义就同时考虑了共享的和异质性两部分。但是和 iNMF 最大的区别是，iNMF 假设了在 bio space(W张成)，以及 tech space（V 张成的空间）坐标是相同的，或者两者是共享一套 factor loading 的。 CSMF 去掉了这个限制。但是同时也去掉了对于 specific 部分的惩罚。话不多说直接看目标函数！

图片.png

可以看到区别就是

图片.png

也就是上文中说到的 iNMF 假设了在 bio space ( $W$ 张成的空间)，以及 tech space（ $V$ 张成的空间）坐标是相同的，或者两者是共享一套 factor loading 的。而 CSMF 去掉了这个限制。且同时在目标函数中也去掉了对于 specific 部分的惩罚。（这个我感觉不是很合理其实，但是不知道是不是处于优化的考虑）。

cFIT,关于cFIT，文献在Integration and transfer learning of single-cell transcriptomes via cFIT,

cFIT 的核心如下图

v2-23d166a1c5c730da59e57a0d3dff7333_720w.jpg

可以看到关键就是在于 cFIT 认为

图片.png

这是什么意思呢，其实就是认为最后的 $X$ _$j$都是由 $H$ _$j$ $W$ ^{$T$ 这个代表生物真实表达量通过一个线性变化得到的。其中 $Λ$ 代表线性变换的 scale, $b$ _$j$表示一个 offset。一句话总结， cFIT 认为batch effect 的影响是一个 gene specific 的线性变换。 $E$ 为 noise 乍一看 cFIT 和之前所述的分解为两部分的 model 并没有什么关系。但是只要稍作变换就可以看出其实还是原始模型的变种。}

图片.png

也就是说认为 batch effect 带来的表达谱 $X$ _$batch$是线性于 $X$ _$Bio$的。

summary

图片.png

从上面几个式子可以看出来最关键的部分就是怎么处理这个 $X$ _$batch$。

生活很好，有你更好

10X单细胞（10X空间转录组）轨迹分析（拟时分析）VECTOR
hello，昨天我们分享了VECTOR的示例代码，文章在10X单细胞（10X空间转录组）轨迹分析（拟时分析）之VE...
10X单细胞（10X空间转录组）基础算法之KL散度
hello，大家好，昨天呢，我们认真分享了有关tSNE的相关知识，文章在10X单细胞（10X空间转录组）降维分析之...
10X单细胞（10X空间转录组）聚类分析之scDCC
hi，各位好，今天我们努努力，看一下10X单细胞和10X空间转录组普遍存在的dropout现象对我们数据分析的影响...
单细胞SRR数据拆分
10X单细胞转录组测序数据的 SRA转fastq fastq-dump SRA转fastq 参考链接：10X单细胞...
10X单细胞空间联合分析之十（RCTD）
hello,上一篇文章中，10X空间转录组数据分析之空间注释（解卷积，STdeconvolve）[https://...
Seurat分析10x Visium空间转录组数据
本教程使用Seurat包进行10x Visium单细胞空间转录组数据分析。这个教程涉及：标准化降维和聚类检...
10X单细胞和10X空间转录组联合分析文章分享
各位同学，大家好，今天我们来分享一篇新的10X单细胞和10X空间转录组联合分析文章，文章在这里Spatiotemp...
10X单细胞（10X空间转录组）数据分析总结之各种NMF
hello，大家好，今天我们来初步总结一下所有单细胞分析用到的NMF。我们先来简单回顾一下批次矫正的方法lige...
10X单细胞（10X空间转录组）空间相关性分析和cellphon
hello，大家好，随着10X单细胞、10X空间转录组如火如荼的进行中，我们的分析内容和手段也要进入深水区了，很多...
NBIS系列单细胞转录组数据分析实战（七）：空间转录组分析
第七节：空间转录组分析在本节教程中，我们将学习空间转录组的一些分析方法。10X Visium平台的空间转录组数据...

10X单细胞（10X空间转录组）数据分析总结之各种NMF

hello，大家好，今天我们来初步总结一下所有单细胞分析用到的NMF。

其实liger批次矫正的核心思想是非负矩阵分解，希望两个 batch 的数据在分解中满足一定性质，共享尽可能多的信息，并且认为这部分共享的信息就是生物信息。

两个 batch 的数据可以写成如下形式，表达谱可分为 biological 信息和 technical 信息的加和。

MNN 假设（关于MNN就不再赘述，网上说了很多了）

关于 MNN 在这个框架下的假设

、正交，也就是 Biology variance 和 batch effect 所代表的的方向相互正交。

| - | >> |α - ζ|， 即 不同 Cell 之间的生物差异远大于 Batch 之间的差异时。

根据这两个假设，可以从上述的 = + 中推导出 MNN 的目标函数。（不包括校正那一步）

LIGER

接下来我们看 LIGER 的关键部分，也就是两个非负矩阵分解，但是在分解过程中不同 batch 之间共享一组 W （可以看成代表生物 module ），另外还有一部分代表 data specific 的technical module 来 model batch effect。

写成数学表达式也就是

首先在这篇文章中 gene cell 的维度和之前说的是反过来的，如果顺过来也就是

对比上文 MNN 中的式子

可以发现，其实 LIGER 中也就是 = 、 = 、 = = ，然后这些矩阵均非负。

此时再观察 LIGER 的优化目标

可以看到还有一项是关于的惩罚，而其实是，这表示希望学到的尽可能小，反之即希望学到的尽可能大，也就是保留尽量多的共享生物信息。

所以总结一下 LIGER 在之前模型上的假设

Summary

这些模型其实都是下述模型在不同假设情况下的特列

其实liger最核心的思想就是integrative non-negative matrix factorization (iNMF)。

接下来我们就来分享各种NMF，其实关于NMF的分享，我已经写了很多，文章在10X单细胞（10X空间转录组）之NMF的实际运用示例（探索肿瘤特征）、10X单细胞（10X空间转录组）数据分析之约束非负矩阵分解（cNMF）等，供大家参考。

首先是iNMF

我们来看 iNMF 中的目标函数为：

JNMF

而 iNMF 其实是建立在张老师 2009年这篇 JNMF 的基础上的一个延伸，文章在A novel computational framework for simultaneous integration of multiple types of genomic data to identify microRNA-gene regulatory modules，

我们来看两者的目标函数就可以非常清楚的看出这个延伸在哪。

CSMF

可以看到区别就是

cFIT,关于cFIT，文献在Integration and transfer learning of single-cell transcriptomes via cFIT,

cFIT 的核心如下图

可以看到关键就是在于 cFIT 认为

也就是说认为 batch effect 带来的表达谱是线性于 的。

summary

从上面几个式子可以看出来最关键的部分就是怎么处理这个。

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

$B$ 、 $W$ 正交，也就是 Biology variance 和 batch effect 所代表的的方向相互正交。

| $Bβ$ - $Bγ$ | >> | $W$ _$x$α - $W$ _$y$ζ|，即不同 Cell 之间的生物差异远大于 Batch 之间的差异时。

根据这两个假设，可以从上述的 $X$ = $X$ _$Bio$ + $X$ _$batch$ 中推导出 MNN 的目标函数。（不包括校正那一步）

可以发现，其实 LIGER 中也就是 $B$ = $W$ 、 $Wx$ = $V$ 、 $β$ = $α$ = $H$ ，然后这些矩阵均非负。

可以看到还有一项是关于 $HiVi$ 的惩罚，而 $HV$ 其实是 $E$ _$batch$，这表示希望学到的 $E$ _$batch$尽可能小，反之即希望学到的 $E$ _$Bio$尽可能大，也就是保留尽量多的共享生物信息。

也就是说认为 batch effect 带来的表达谱 $X$ _$batch$是线性于 $X$ _$Bio$的。

从上面几个式子可以看出来最关键的部分就是怎么处理这个 $X$ _$batch$。