美文网首页
深度学习知识点汇总-数学基础知识(1)

深度学习知识点汇总-数学基础知识(1)

作者: 深度学习模型优化 | 来源:发表于2019-05-01 00:48 被阅读0次

1 数学基础知识

这里仅列举我自己常用的知识点,一些我认为熟悉的知识点这里就不列举。(记录就是为了查找方便)
有兴趣的同学可以看下花书。该书比较详细的介绍了深度学习需要的数学知识。

1.1 向量和矩阵的范数

1.1.1 向量范数

设向量为\vec a = (a_0, a_1, \cdots, a_{N-1})^T \in R^{N \times 1}

1-范数:
\Vert \vec a \Vert_1 = \sum_{i=0}^{N-1} \vert a_i \vert

2-范数:
\Vert \vec a \Vert_2 = \sqrt {\sum_{i=0}^{N-1} \vert a_i \vert^2}

负无穷范数:
\Vert \vec a \Vert_{-\infty} = \mathop {\min}_i \vert a_i \vert

正无穷范数:
\Vert \vec a \Vert_{-\infty} = \mathop {\max}_i \vert a_i \vert

p-范数:
\Vert \vec a \Vert_p = \left( \sum _{i=0}^{N-1 } \vert a_i\vert^p \right)^{\frac{1}{p}}

1.1.2 矩阵范数

设矩阵为
A = \begin{bmatrix} a_{0,0} & a_{0,1} & \cdots & a_{0,N-1} \\ a_{1,0} & a_{1,1} & \cdots & a_{1,N-1} \\ \vdots & \vdots & \ddots & \vdots \\ a_{M-1,0} & a_{M-1,1} & \cdots & a_{M-1, N-1} \end{bmatrix} \in R^{M \times N}

矩阵的范数定义为:
L_p = \Vert A\Vert_p := \sup_{\vec x \neq \vec 0} \frac{\Vert \vec A \vec x\Vert_p}{\Vert \vec x \Vert_p}

1-范数(列范数):
\Vert A\Vert_1 = \mathop {\max}_{0 \leq j \leq N-1} \sum_{i=0}^{M-1} \vert a_{i,j}\vert
矩阵中所有列向量1-范数中的最大值为矩阵的1-范数。

2-范数:
\Vert A\Vert_2 = \sqrt{\lambda_{max}(A^T A)}
其中\lambda表示矩阵A^T A的特征值。
矩阵A^T A的最大特征值开平方。

无穷范数(行范数):
\Vert A\Vert_{\infty} = \mathop {\max}_{0 \leq i \leq M-1} \sum_{j=0}^{N-1} \vert a_{i,j}\vert
矩阵中所有行向量1-范数中的最大值为矩阵的无穷范数。

核范数:
\Vert A\Vert_{kernel} = \sum_{j=0}^{N-1} \sqrt {\lambda_j}
其中\lambda表示矩阵A^T A的特征值。
矩阵的奇异值之和。

L0-范数:
\Vert A\Vert_{L0} = \sum_{i=0}^{M-1} \sum_{j=0}^{N-1} \mathbb I(a_{i,j} = 0)
其中\mathbb I(x = 0)表示指示函数,为
\mathbb I(x = 0) = \begin{cases} 1 & x=0 \\ 0 & x\neq 0 \end{cases}
矩阵的非零元素个数。

L1-范数:
\Vert A\Vert_{L1} = \sum_{i=0}^{M-1} \sum_{j=0}^{N-1} \vert a_{i,j} \vert
矩阵中所有元素绝对值之和。

F-范数:
\Vert A\Vert_{F} = \sqrt {\sum_{i=0}^{M-1} \sum_{j=0}^{N-1} \vert a_{i,j} \vert^2 }
矩阵的所有元素平方之和,再开平方。

L21-范数:
\Vert A\Vert_{L21} =\sum_{j=0}^{N-1} \left| {\sum_{i=0}^{M-1} \vert a_{i,j}\vert^2} \right|
矩阵先以每一列为单位,求每一列的F范数(也可认为是向量的2范数),然后再将得到的结果求L1范数(也可认为是向量的1范数)。

p-范数:
\Vert A\Vert_{p} = \left( \sum_{i=0}^{M-1} \sum_{j=0}^{N-1} \vert a_{i,j} \vert^p \right)^{\frac{1}{p}}

1.2 正定矩阵的判定方法

  • 矩阵的顺序主子式全大于0;
  • 矩阵的所有主子式大于0;
  • 合同于单位矩阵;
  • 特征值全为正;
  • 标准形中主对角元素全为正;
  • 存在可逆矩阵C,使C^TC等于该矩阵;
  • 所有对角线上的元素全大于0;
  • 正惯性指数等于矩阵维数;
  • 是某基的度量矩阵。

1.3 奇异值与特征值的关系

特征值来源于矩阵的特征分解:
Ax = \lambda x
A^TA做特征分解,有
A^T A = U^T \Lambda U = U^T \Lambda^{\frac{1}{2}} V V^T \Lambda^{\frac{1}{2}} U
其中U表示规范化特征向量组成的酉矩阵,\Lambda为对角元素为A的特征值的对角矩阵。V也是酉矩阵。
结合特征分解,可以对A做奇异值分解得到:
A = U \Sigma V^T
将上式带入特征分解的公式中,有
\Sigma = \Lambda^{\frac{1}{2}}
可知矩阵A的奇异值是方阵A^T A的特征值的均方根。

1.4 机器学习使用概率的原因

机器学习的原理是让机器自动从数据中学习到规律。机器学习算法的设计通常依赖于对数据的概率假设。

1.5 常见的概率分布

1.5.1 Bernoulli分布

Bernoulli是一个离散型随机变量分布,其多变量分布称为Multinoulli分布。
Bernoulli分布:
参数\phi是随机变量等于1的概率,1 - \phi为随机变量等于0的概率。因此有
P(x) = \phi^x (1 - \phi)^{1 - x}

于是有Bernoulli分布的期望和方差分别为\phi\phi(1 - \phi)

Multinoulli分布:
也称为多重Bernoulli分布。举例而言,其表示在N次独立的Bernoulli实验中有m次成功的概率。令\phi \in [0, 1]表示单次Bernoulli实验成功的概率。于是有
P(m | N, \phi) = C_N^m \phi^m (1 - \phi)^{N - m}

其期望和方差分别为N\phiN\phi(1 - \phi)

1.5.2 高斯分布

高斯分布也城为正态分布,是一种连续性的随机变量分布,其概率密度函数可以表示为:
P(x | \mu, \sigma^2) = \frac{1}{\sqrt{2 \pi} \sigma} \exp \left( {- \frac{1}{2\sigma^2} (x - \mu)^2} \right)

均值和方差分别为\mu\sigma^2

正态分布中±1\sigma、±2\sigma、±3\sigma下的概率分别是68.3%、95.5%、99.73%,这3个数最好记住。

相关文章

网友评论

      本文标题:深度学习知识点汇总-数学基础知识(1)

      本文链接:https://www.haomeiwen.com/subject/rrzknqtx.html