美文网首页
深度学习知识点汇总-数学基础知识(1)

深度学习知识点汇总-数学基础知识(1)

作者: 深度学习模型优化 | 来源:发表于2019-05-01 00:48 被阅读0次

    1 数学基础知识

    这里仅列举我自己常用的知识点,一些我认为熟悉的知识点这里就不列举。(记录就是为了查找方便)
    有兴趣的同学可以看下花书。该书比较详细的介绍了深度学习需要的数学知识。

    1.1 向量和矩阵的范数

    1.1.1 向量范数

    设向量为\vec a = (a_0, a_1, \cdots, a_{N-1})^T \in R^{N \times 1}

    1-范数:
    \Vert \vec a \Vert_1 = \sum_{i=0}^{N-1} \vert a_i \vert

    2-范数:
    \Vert \vec a \Vert_2 = \sqrt {\sum_{i=0}^{N-1} \vert a_i \vert^2}

    负无穷范数:
    \Vert \vec a \Vert_{-\infty} = \mathop {\min}_i \vert a_i \vert

    正无穷范数:
    \Vert \vec a \Vert_{-\infty} = \mathop {\max}_i \vert a_i \vert

    p-范数:
    \Vert \vec a \Vert_p = \left( \sum _{i=0}^{N-1 } \vert a_i\vert^p \right)^{\frac{1}{p}}

    1.1.2 矩阵范数

    设矩阵为
    A = \begin{bmatrix} a_{0,0} & a_{0,1} & \cdots & a_{0,N-1} \\ a_{1,0} & a_{1,1} & \cdots & a_{1,N-1} \\ \vdots & \vdots & \ddots & \vdots \\ a_{M-1,0} & a_{M-1,1} & \cdots & a_{M-1, N-1} \end{bmatrix} \in R^{M \times N}

    矩阵的范数定义为:
    L_p = \Vert A\Vert_p := \sup_{\vec x \neq \vec 0} \frac{\Vert \vec A \vec x\Vert_p}{\Vert \vec x \Vert_p}

    1-范数(列范数):
    \Vert A\Vert_1 = \mathop {\max}_{0 \leq j \leq N-1} \sum_{i=0}^{M-1} \vert a_{i,j}\vert
    矩阵中所有列向量1-范数中的最大值为矩阵的1-范数。

    2-范数:
    \Vert A\Vert_2 = \sqrt{\lambda_{max}(A^T A)}
    其中\lambda表示矩阵A^T A的特征值。
    矩阵A^T A的最大特征值开平方。

    无穷范数(行范数):
    \Vert A\Vert_{\infty} = \mathop {\max}_{0 \leq i \leq M-1} \sum_{j=0}^{N-1} \vert a_{i,j}\vert
    矩阵中所有行向量1-范数中的最大值为矩阵的无穷范数。

    核范数:
    \Vert A\Vert_{kernel} = \sum_{j=0}^{N-1} \sqrt {\lambda_j}
    其中\lambda表示矩阵A^T A的特征值。
    矩阵的奇异值之和。

    L0-范数:
    \Vert A\Vert_{L0} = \sum_{i=0}^{M-1} \sum_{j=0}^{N-1} \mathbb I(a_{i,j} = 0)
    其中\mathbb I(x = 0)表示指示函数,为
    \mathbb I(x = 0) = \begin{cases} 1 & x=0 \\ 0 & x\neq 0 \end{cases}
    矩阵的非零元素个数。

    L1-范数:
    \Vert A\Vert_{L1} = \sum_{i=0}^{M-1} \sum_{j=0}^{N-1} \vert a_{i,j} \vert
    矩阵中所有元素绝对值之和。

    F-范数:
    \Vert A\Vert_{F} = \sqrt {\sum_{i=0}^{M-1} \sum_{j=0}^{N-1} \vert a_{i,j} \vert^2 }
    矩阵的所有元素平方之和,再开平方。

    L21-范数:
    \Vert A\Vert_{L21} =\sum_{j=0}^{N-1} \left| {\sum_{i=0}^{M-1} \vert a_{i,j}\vert^2} \right|
    矩阵先以每一列为单位,求每一列的F范数(也可认为是向量的2范数),然后再将得到的结果求L1范数(也可认为是向量的1范数)。

    p-范数:
    \Vert A\Vert_{p} = \left( \sum_{i=0}^{M-1} \sum_{j=0}^{N-1} \vert a_{i,j} \vert^p \right)^{\frac{1}{p}}

    1.2 正定矩阵的判定方法

    • 矩阵的顺序主子式全大于0;
    • 矩阵的所有主子式大于0;
    • 合同于单位矩阵;
    • 特征值全为正;
    • 标准形中主对角元素全为正;
    • 存在可逆矩阵C,使C^TC等于该矩阵;
    • 所有对角线上的元素全大于0;
    • 正惯性指数等于矩阵维数;
    • 是某基的度量矩阵。

    1.3 奇异值与特征值的关系

    特征值来源于矩阵的特征分解:
    Ax = \lambda x
    A^TA做特征分解,有
    A^T A = U^T \Lambda U = U^T \Lambda^{\frac{1}{2}} V V^T \Lambda^{\frac{1}{2}} U
    其中U表示规范化特征向量组成的酉矩阵,\Lambda为对角元素为A的特征值的对角矩阵。V也是酉矩阵。
    结合特征分解,可以对A做奇异值分解得到:
    A = U \Sigma V^T
    将上式带入特征分解的公式中,有
    \Sigma = \Lambda^{\frac{1}{2}}
    可知矩阵A的奇异值是方阵A^T A的特征值的均方根。

    1.4 机器学习使用概率的原因

    机器学习的原理是让机器自动从数据中学习到规律。机器学习算法的设计通常依赖于对数据的概率假设。

    1.5 常见的概率分布

    1.5.1 Bernoulli分布

    Bernoulli是一个离散型随机变量分布,其多变量分布称为Multinoulli分布。
    Bernoulli分布:
    参数\phi是随机变量等于1的概率,1 - \phi为随机变量等于0的概率。因此有
    P(x) = \phi^x (1 - \phi)^{1 - x}

    于是有Bernoulli分布的期望和方差分别为\phi\phi(1 - \phi)

    Multinoulli分布:
    也称为多重Bernoulli分布。举例而言,其表示在N次独立的Bernoulli实验中有m次成功的概率。令\phi \in [0, 1]表示单次Bernoulli实验成功的概率。于是有
    P(m | N, \phi) = C_N^m \phi^m (1 - \phi)^{N - m}

    其期望和方差分别为N\phiN\phi(1 - \phi)

    1.5.2 高斯分布

    高斯分布也城为正态分布,是一种连续性的随机变量分布,其概率密度函数可以表示为:
    P(x | \mu, \sigma^2) = \frac{1}{\sqrt{2 \pi} \sigma} \exp \left( {- \frac{1}{2\sigma^2} (x - \mu)^2} \right)

    均值和方差分别为\mu\sigma^2

    正态分布中±1\sigma、±2\sigma、±3\sigma下的概率分别是68.3%、95.5%、99.73%,这3个数最好记住。

    相关文章

      网友评论

          本文标题:深度学习知识点汇总-数学基础知识(1)

          本文链接:https://www.haomeiwen.com/subject/rrzknqtx.html