PH525x series - Projections

作者: 3between7 | 来源:发表于2019-12-13 11:21 被阅读0次

PH525x series - Projections
PH525x series - Exercises - Line
线性回归模型
PH525x series - Hierarchical Mod
PH525x series - Collinearity
PH525x series - Introduction to
PH525x series - Running PCA and
PH525x series - Statistical Mode
PH525x series - Principal Compon
PH525x series - Robust summaries

前面的章节学的是降维、奇异值分解以及主成分分析的大致内容，本篇文章则开始更加详细的介绍这背后的数学原理，首先要学的就是投影（projection）。

概念

投影其实就是一种可以最小化一个点与一个子空间距离的线性代数算法，现在我们假设 $\vec{y}$ 是一个N维空间里的某点： $\vec{y} \in \mathbb{R}^N$ ， $L$ 是这个空间的一个子空间： $L \subset \mathbb{R}^N$ 。现以二维空间为例说明这个影到底是怎么投的：

若 $Y = \begin{pmatrix} 2 \\ 3\end{pmatrix}$ ，如下图：

1912121752.png

通过将 $\vec{y}$ 投影到由 $\begin{pmatrix}1\\0\end{pmatrix}$ （x轴）和 $\begin{pmatrix}0\\1\end{pmatrix}$ （y轴）定义的空间上，很快我们就可以得到相应的坐标（coordinate）:

$\begin{align*} Y &= \begin{pmatrix} 2 \\ 3\end{pmatrix} \\ &=2 \begin{pmatrix} 1\\ 0\end{pmatrix} + 3 \begin{pmatrix} 0\\ 1\end{pmatrix} \end{align*}$

也就是 $(2,3)$ 即为 $Y$ 的坐标。

现在定义一个新的子空间 $L$ ，这个空间呢是由一个满足 $c\vec{v}$ 且 $\vec{v}=\begin{pmatrix} 2& 1\end{pmatrix}^\top$ 的点定义的。既然 $\vec{y}$ 在这个空间上的投影就是 $L$ 上到 $\vec{y}$ 最近的那个点，也就说我们需要计算出可以最小化 $\vec{y}$ 和 $c\vec{v}=(2c,c)$ 之间距离的 $c$ 值。

而在线性代数中我们已知，如果两个向量相交，那么其乘积则为0，因此：

$(\vec{y}-\hat{c}\vec{v}) \cdot \vec{v} = 0$ 也就是：
$\vec{y}\cdot\vec{v} - \hat{c}\vec{v}\cdot\vec{v} = 0$ 所以：
$\hat{c} = \frac{\vec{y}\cdot\vec{v}} {\vec{v}\cdot\vec{v}}$

另外，上述公式中的点 $\cdot$ 的意思是： $\,\, \vec{x} \cdot \vec{y} = x_1 y_1+\dots x_n y_n$ ，举例说明：

mypar(1,1)
plot(c(0,4),c(0,4),xlab="Dimension 1",ylab="Dimension 2",type="n")
arrows(0,0,2,3,lwd=3)
abline(0,0.5,col="red",lwd=3) #if x=2c and y=c then slope is 0.5 (y=0.5x)
text(2,3," Y",pos=4,cex=3)
y=c(2,3)
v=c(2,1)
cc = crossprod(v,y)/crossprod(v)
segments(v[1]*cc,v[2]*cc,y[1],y[2],lty=2)
##segments(x0,y0,x1,y1):在(x0,y0)和(x1,y1)之间画一条线段
text(v[1]*cc,v[2]*cc,expression(hat(Y)),pos=4,cex=3)

1912130957.png

样本均值

假设 $\vec{y} \in \mathbb{R}^N$ ，而 $L \subset \mathbb{R}^N$ 的定义如下：
$\vec{v}=\begin{pmatrix} 1\\ \vdots \\ 1\end{pmatrix}; L = \{ c \vec{v}; c \in \mathbb{R}\}$

在这个空间里， $\vec{v}$ 的所有元素都是相同的数字，所以投影到这个空间上每一个维度上对应的坐标都该是相同的。那这种情况下该如何最小化 $c\vec{v}$ 和 $\vec{y}$ 呢？

已知：

$\hat{c} = \frac{\vec{y}\cdot\vec{v}} {\vec{v}\cdot\vec{v}}$

因此：

$\hat{c} = \frac{\vec{y}\cdot\vec{v}}{\vec{v}\cdot\vec{v}} = \frac{\sum_{i=1}^N Y_i}{\sum_{i=1}^N 1} = \bar{Y}$

所以说，样本均值其实也是一种投影。

线性回归

除了均值以外，线性回归同样是一种投影，从投影的角度理解，线性回归其实就是：

假设我们的数据 $Y$ 是一个N维的向量，且线性回归模型为： $Y_{i} = \beta_0 + \beta_1X_i$ ，求使得 $Y$ 和如下定义的子空间 $L$ 之间的距离最小的 $\beta_0$ 和 $\beta_1$ 究竟是多少：

$L = \{ \beta_0 \vec{v}_0 + \beta_1 \vec{v}_1 ; \vec{\beta}=(\beta_0,\beta_1) \in \mathbb{R}^2 \}$

其中：

$\vec{v}_0=\begin{pmatrix}1\\1\\\vdots \\1\\\end{pmatrix} \mbox{ , }\vec{v}_1=\begin{pmatrix}X_{1}\\X_{2}\\\vdots \\X_{N}\\\end{pmatrix}$

除此之外， $N\times 2$ 矩阵 $\mathbf{X}$ 是 $[ \vec{v}_0 \,\, \vec{v}_1]$ ，在 $L$ 中的任何一个点都可以被写成： $X\vec{\beta}$ 。

正交投影的多维度版本公式是(这个公式咋推导的。。。)：

$X^\top (\vec{y}-X\vec{\beta}) = 0$

再加上我们之前学过：

$X^\top X \hat{\beta}= X^\top \vec{y}$ $\hat{\beta}= (X^\top X)^{-1}X^\top \vec{y}$

因此向 $L$ 中的投影就是：

$X (X^\top X)^{-1}X^\top \vec{y}$

阅读原文请戳

PH525x series - Projections
前面的章节学的是降维、奇异值分解以及主成分分析的大致内容，本篇文章则开始更加详细的介绍这背后的数学原理，首先要学的...
PH525x series - Exercises - Line
本篇文章是PH525x series课程中Linear models and randomness的练习章节，下面...
线性回归模型
在学习PH525x series - Chapter 5 - Linear Models时，觉得有些地方理解起来有...
PH525x series - Hierarchical Mod
在上一篇文章PH525x series - Bayesian Statistics中是将层次模型应用到了棒球运动当...
PH525x series - Collinearity
共线性当自变量之间存在共线性时，线性回归得到的最小二乘估计的值并不唯一。共线性简单点说就是，设计矩阵中的某几列存...
PH525x series - Introduction to
本章会对线性模型做一个大致的介绍，还是举例说明吧：例1：自由落体问题想象自己是16世纪的伽利略，正在研究自由落...
PH525x series - Running PCA and
在PCA相关的章节最后，系列教程的作者又专门写了一章“在R中运行PCA和SVD”，使用的还是tissuesGene...
PH525x series - Statistical Mode
正连续值的分布在生物学中有很多数据的分布特征是“strictly positive and heavy righ...
PH525x series - Principal Compon
这一章，作者就是在数学原理方面又细讲了下主成分分析（PCA）例子：双胞胎身高作者首先使用双胞胎身高的例子来说明...
PH525x series - Robust summaries
鲁棒性（robust）人们经常使用正态分布去分析生命科学领域的数据，然而，因为设备的复杂性，常常会由于一些未知的...