划重点
这里仅仅只是谈论一下我对SVD分解在生物学中的应用
SVD分解最常用的模型是推荐系统,因此这里仿照推荐系统的基本框架,迁移进生物学中的意义来理解。而SVD在生物学中常见的操作就是因子降维,去挖掘潜在的大类因子
例子
假设说,这里有一个生物学指标的矩阵:
每一个item代表每一个生物学指标(比方说医学指标),每一个sample代表每一个生物学个体
SVD分解的图示如下:
图片摘自知乎
也就是将原始矩阵(A),分解为左奇异矩阵(U),奇异值矩阵(∑)和右奇异矩阵(V)的乘积,并且奇异值矩阵中,主对角线的值即为奇异值,奇异值越大代表奇异向量的贡献越大,因此在因子降维的过程中,选取贡献较大的奇异向量即可
回到之前的例子,图示如下:
其中,factor 1,factor 2为影响sample的大类因子;而factor A,factor B为影响item的大类因子
如果我们想看sample 1对item 2的影响(贡献),我们只需要:
最终计算出来的那个数值(标量)即为sample 1对item 2的影响(贡献)
从几何意义入手再次理解SVD
以最简单的矩阵进行SVD分解:
其中三个矩阵的数值分别如下:
由于 factory 2 和 factory B 这两个特征向量为零向量,因此真正有贡献的是 factory 1 和 factory A 这两个特征向量
针对于item
如果以生物学指标 item 来建立二维坐标系:
其中sample 1 的坐标为 [1, 1.732051];sample 2 的坐标为 [5, 8.660654]
其中特征向量为factory A,factory A的坐标为 [0.5,0.866],那么 0.5代表了 factory A 这个特征向量与 item 1 这根轴的方向余弦;0.866代表了 factory A 这个特征向量与 item 2 这根轴的方向余弦
方向余弦值越大代表该 factory 对该 item 的影响较大
针对于sample
如果以生物学指标 sample 来建立二维坐标系:
其中 item 1 的坐标为 [1, 5];item 2 的坐标为 [1.732051, 8.660654]
其中特征向量为factory 1,factory 1的坐标为 [0.1961,0.9806],那么 0.1961代表了 factory 1 这个特征向量与 sample 1 这根轴的方向余弦;0.9806代表了 factory 1 这个特征向量与 sample 2 这根轴的方向余弦
方向余弦值越大代表该 factory 对该 sample 的影响较大
对于SVD的理解是不是和PCA的理解比较类似呢?:传送门
网友评论