美文网首页
深度学习花书阅读简要笔记-day01

深度学习花书阅读简要笔记-day01

作者: 枯海拾贝 | 来源:发表于2019-01-31 21:03 被阅读0次

    第二章 线性代数

    2.1 标量、向量、矩阵和张量

    • 矩阵的每一行可以看做是一个向量,因此向量要能够与矩阵相加,必须满足向量元素个数等于矩阵列数

    2.2 矩阵和向量相乘

    • 向量点积(dot product)的结果是一个标量
    • 注意矩阵乘积(matrix product)和元素对应乘积(dot product)的区别

    2.3 单位矩阵和逆矩阵

    • 逆矩阵(matrix inversion)

    2.4 线性相关和生成子空间

    • 要想用逆矩阵求解Ax=b,A必须满足是方阵(square),且不是奇异(singular)矩阵
    • 奇异矩阵:列向量线性相关的方阵
    • 线性无关:如果一组向量中的任意一个向量都不能表示成其他向量的线性组合,那么这组向量称为线性无关(linearly independent)

    2.5 范数

    • 范数(norm)衡量向量的大小:将向量映射到非负值的函数
    • L2范数:向量元素平方和的开根号,机器学习中一般使用平方L2范数(why???)
      • 平方L2范数:向量元素的平方和
      • 计算上方便:可以简单地通过向量与自身的点积x^T*x计算得到
      • 数学上也方便:平方L2范数对x中每个元素的导数结果只取决于对应的元素,而L2范数对每个元素求导却和所有元素相关
    • L1范数:很多情况下平方L2范数并不受欢迎(why???)
      • 它在原点附近增长缓慢:原点附近的x元素接近于0,平方后的结果更加接近于0,而在很多机器学习应用中,区分恰好是0元素和非0但很小的元素是很重要的。
      • 当机器学习问题中0和非0元素之间的差异非常重要时,通常使用L1范数。每当x 中某个元素从0 增加ϵ,对应的L1 范数也会增加ϵ
    • L∞范数,也被称为最大范数(maxnorm):向量中绝对值最大的元素的绝对值
    • 衡量矩阵的大小:Frobenius 范数(Frobenius norm)
      • 类似于向量的L2范数:矩阵元素平方和的开根号

    2.6 特殊类型的矩阵和向量

    • 对角矩阵(diagonal matrix):只在主对角线上含有非0元素,其他位置都是0。收到关注(why???)
      • 用diag(v) 表示一个对角元素由向量v 中元素给定的对角方阵
      • 对角矩阵参与的矩阵乘法计算高效:计算乘法diag(v)x,我们只需要将x 中的每个元素xi 放大vi 倍。换言之,diag(v)x = v ⊙ x
      • 当对角矩阵的逆矩阵存在时,计算也比较高效:diag(v)^-1 = diag([1/v1; : : : ; 1/vn]⊤)
      • 通过将一些矩阵限制为对角矩阵,我们可以得到计算代价较低的(并且简明扼要的)算法
      • 对于一个长方形对角矩阵D 而言,乘法Dx 会涉及到x 中每个元素的缩放,如果D 是瘦长型矩阵,那么在缩放后的末尾添加一些零;如果D是胖宽型矩阵,那么在缩放后去掉最后一些元素
    • 向量x,y正交:(orthogonal):x^T*y=0即∥x∥2∥y∥2 cos Θ=0
    • 如果向量不仅正交,而且范数(L2范数)都为1,称它们是标准正交(orthonormal)
    • 正交矩阵(orthogonal matrix)是指行向量标准正交和列向量也标准正交的方阵,A⊤A = AA⊤
      = I,则A^-1 = A⊤,所以正交矩阵受到关注是因为求逆计算代价小。

    2.7 特征分解

    • 方阵A 的特征向量(eigenvector)是指与A 相乘后相当于对该向量进行缩放的非零向量v:Av =λv,λ为特征值,v为特征向量
    • A 的特征分解(eigendecomposition)可以记作A = Vdiag(λ)V^-1
    • 每个实对称矩阵都可以分解成实特征向量和实特征值A=QΛQ⊤,Q是A特征向量组成的正交矩阵,Λ是对角矩阵
    • 矩阵分解可以得到的信息:
      • 矩阵是奇异的:当且仅当含有0特征值
      • 正定矩阵:所有特征值都是正数;半正定矩阵:所有特征值都是大于等于0;负定矩阵:所有特征值都是负数;半负定:所有特征值都小于等于0。
      • 正定矩阵还保证x⊤Ax = 0 ==>x = 0。

    2.8 奇异值分解

    • 每个实数矩阵都有一个奇异值分解,但不一定都有特征分解。例如,非方阵的矩阵没有特征分解,这时我们只能使用奇异值分解。
    • 奇异值分解:将矩阵A 分解成三个矩阵的乘积:A = UDV⊤
    • 矩阵U 和V 都定义为正交矩阵,而矩阵D 定义为对角矩阵。矩阵D 不一定是方阵
    • SVD最有用的一个性质可能是拓展矩阵求逆到非方矩阵上

    相关文章

      网友评论

          本文标题:深度学习花书阅读简要笔记-day01

          本文链接:https://www.haomeiwen.com/subject/ycvlsqtx.html