美文网首页
机器学习笔记——基础知识(一)

机器学习笔记——基础知识(一)

作者: 电脑配件 | 来源:发表于2018-12-25 23:05 被阅读0次

    选用教材:DEEP LEARNING 深度学习 (花书)

    花书

    在开始学习机器学习之前,需要一定的数学知识,花书的第二、三章比较详细地介绍了机器学习中所必须的线性代数和概率论与信息论的知识,第四章讲了有关数值计算的问题。本人在此做简单总结,供自己学习和入门选手参考。

    1、线性代数:

    标量(scalar):单独的一个数,如1,2,10,1000

    向量(vector):一组数组成的有序序列,可以用于表示n维空间中一个点的坐标,在计算机中可以使用数组表示向量,如 \begin{bmatrix}   1 \\2\\10\\1000 \end{bmatrix}

    矩阵(matrix):由一组等长的向量组成的有序序列的,在计算机中可以用二维数组表示,如 \begin{bmatrix}   a & b \\  d & e \\ \end{bmatrix}

    张量(tensor):超过2维的数组

    可见,后三个概念均是由前一个概念推广而来,向量由标量组成,矩阵由向量组成,张量由矩阵组成。前一个可以看作后一个的特例。只要讨论矩阵之间的运算,其他概念的运算则与之相似。

    矩阵加法: \begin{bmatrix}   a1 & b1 & c1 \\  d1 & e1 & f1 \\  g1 & h1 & i1 \end{bmatrix}+ \begin{bmatrix}   a2 & b2 & c2 \\  d2 & e2 & f2 \\  g2 & h2 & i2 \end{bmatrix}= \begin{bmatrix}   a1+a2 & b1+b2 & c1+c2 \\  d1+d2 & e1+e2 & f1+f2 \\  g1+g2 & h1+h2 & i1+i2 \end{bmatrix}

    只有两个形状相同的矩阵才可以相加,法则为对应位置元素相加

    矩阵乘法:

     \begin{bmatrix}   a & b \\  c & d \\ \end{bmatrix}\times \begin{bmatrix}   e & f \\  i & g \\ \end{bmatrix}= \begin{bmatrix}   ae+bi & af+bg \\  ce+di & cf+dg \\ \end{bmatrix}

    只有前一个矩阵的列数与后一个矩阵的行数相同才能乘

    满足交换律和分配律:

    A(B+C)=AB+AC\\A(BC)=(AB)C

    向量的范数:

    norm(x,p)=(\sum_{i=1}^n  \vert x_i\vert^p )^{1/p}

    p=2时,就是通常向量的模,向量的欧式长度,称为欧几里得范数

    p\rightarrow \infty 时,称为最大范数(max norm),其值为向量x中最大的值,推导过程如下:

    \lim_{p\to\infty} (\vert x \vert _{max}^p)^{1/p} <\lim_{p\to\infty} (\sum_{i=0}^n \vert x_i \vert^p  )^{1/p} <\lim_{p\to\infty} (n\vert x \vert_{max}^p) ^{1/p}

    左右两边的极限都是\vert x \vert _{max},根据夹逼准则得证

    单位向量:欧几里得范数为1的向量

    正交矩阵:如果一个矩阵与它的转置相乘为单位矩阵,则称该矩阵为正交矩阵,即满足:

    A^TA=AA^T=I\\
A^{-1}=A^T

    特征向量与特征值:如果方阵A和向量
v
满足:

    Av=\lambda v

    v
A的特征向量,\lambda 是对应的特征值

    假如该矩阵有两个线性无关的特征向量,则有:

    Av_1=\lambda _1v_1\\
Av_2=\lambda_2v_2\\
A\begin{bmatrix}
v_1 & v_2
     \end{bmatrix}
=
\begin{bmatrix}
\lambda_1v_1&\lambda_2v_2
\end{bmatrix}
=\begin{bmatrix}
v_1 & v_2
\end{bmatrix}
\begin{bmatrix}
\lambda_1 & 0\\  0 & \lambda_2
\end{bmatrix}
=Vdiag(\lambda)
\\
A=Vdiag(\lambda)V^{-1}

    这个结论很容易推广到n维的向量上

    以上过程称为矩阵的特征分解

    不是所有矩阵都有特征分解,对于实对称矩阵一定有:

    A=Q\Lambda Q^{T}

    Q由A特征向量组成(实对称矩阵一定存在),\Lambda则与上面的diag(\lambda)一样

    相关文章

      网友评论

          本文标题:机器学习笔记——基础知识(一)

          本文链接:https://www.haomeiwen.com/subject/iogqlqtx.html