1 数学基础知识
这里仅列举我自己常用的知识点,一些我认为熟悉的知识点这里就不列举。(记录就是为了查找方便)
有兴趣的同学可以看下花书。该书比较详细的介绍了深度学习需要的数学知识。
1.1 向量和矩阵的范数
1.1.1 向量范数
设向量为。
1-范数:
2-范数:
负无穷范数:
正无穷范数:
p-范数:
1.1.2 矩阵范数
设矩阵为
矩阵的范数定义为:
1-范数(列范数):
矩阵中所有列向量1-范数中的最大值为矩阵的1-范数。
2-范数:
其中表示矩阵的特征值。
矩阵的最大特征值开平方。
无穷范数(行范数):
矩阵中所有行向量1-范数中的最大值为矩阵的无穷范数。
核范数:
其中表示矩阵的特征值。
矩阵的奇异值之和。
L0-范数:
其中表示指示函数,为
矩阵的非零元素个数。
L1-范数:
矩阵中所有元素绝对值之和。
F-范数:
矩阵的所有元素平方之和,再开平方。
L21-范数:
矩阵先以每一列为单位,求每一列的F范数(也可认为是向量的2范数),然后再将得到的结果求L1范数(也可认为是向量的1范数)。
p-范数:
1.2 正定矩阵的判定方法
- 矩阵的顺序主子式全大于0;
- 矩阵的所有主子式大于0;
- 合同于单位矩阵;
- 特征值全为正;
- 标准形中主对角元素全为正;
- 存在可逆矩阵,使等于该矩阵;
- 所有对角线上的元素全大于0;
- 正惯性指数等于矩阵维数;
- 是某基的度量矩阵。
1.3 奇异值与特征值的关系
特征值来源于矩阵的特征分解:
对做特征分解,有
其中表示规范化特征向量组成的酉矩阵,为对角元素为的特征值的对角矩阵。也是酉矩阵。
结合特征分解,可以对做奇异值分解得到:
将上式带入特征分解的公式中,有
可知矩阵的奇异值是方阵的特征值的均方根。
1.4 机器学习使用概率的原因
机器学习的原理是让机器自动从数据中学习到规律。机器学习算法的设计通常依赖于对数据的概率假设。
1.5 常见的概率分布
1.5.1 Bernoulli分布
Bernoulli是一个离散型随机变量分布,其多变量分布称为Multinoulli分布。
Bernoulli分布:
参数是随机变量等于1的概率,为随机变量等于0的概率。因此有
于是有Bernoulli分布的期望和方差分别为和。
Multinoulli分布:
也称为多重Bernoulli分布。举例而言,其表示在次独立的Bernoulli实验中有次成功的概率。令表示单次Bernoulli实验成功的概率。于是有
其期望和方差分别为和。
1.5.2 高斯分布
高斯分布也城为正态分布,是一种连续性的随机变量分布,其概率密度函数可以表示为:
均值和方差分别为和。
正态分布中±1、±2、±3下的概率分别是68.3%、95.5%、99.73%,这3个数最好记住。
网友评论