数学基础_王奇文

作者: yansicing | 来源:发表于2018-08-23 02:10 被阅读0次

数学基础_王奇文
选课走班下的课堂教学（二）：数学分层课堂实施
人工智能基础课
2020-09-26
七绝·滕王阁
数学基础
数学基础
数学基础
数学基础
数学基础

https://www.leiphone.com/news/201708/LEBNjZzvm0Q3Ipp0.html

https://www.leiphone.com/news/201708/iL1S8jkc4ytZFzHS.html

http://www.sohu.com/a/168371676_114877

image.png

线性空间（向量空间，对数乘和向量加法封闭所组成的空间）--（定义范数）-->赋范线性空间（向量具有的长度）--（定义内积）-->内积空间（向量之间具有了角度）--（完备化）-->希尔伯特空间。

机器学习里面分两大类生成式和判别式，判别式的一个典型就是贝斯规则；生成式的方法跟判别式方法区别就是，生成式尽可能用模型去拟合它的联合分布，而判别式拟合的是一种条件分布。

贝叶斯学派和频率学派最大的不同、根上的不同，就是在于模型 y=wx+b 其中的w和b两个参数，频率学派认为参数是固定的，只要通过不停的采样、不停的观测训练，就能够估算参数w和b，因为它们是固定不变的；而贝叶斯学派相反，他们认为这些参数是变量，它们是服从一定的分布的，这是它最根本的差别。在这个基础上演变的最大似然估计、或者MAP等等的都不一样。这完全是两个不同的流派。

上面的公式是自信息的标准，直接就取一个对数而已，加上负号。熵就是把多种情况累加起来再取均值。

image.png

KL散度，基本上是衡量两个概率分布的差异。（注：信息论也可以形象起来，参考：colah's blog,Visual Information Theory）

image.png

下图KL散度，它是不对称的，就是说概率p和概率q的顺序调一下是不同的概念，两个顺序不同要用于不同的场景。它的目标是要构造一个概率分布 q，去近似拟合、去模拟另外一个概率分布p。这个p分布是由两个正态分布组合起来的，两个叠加起来。怎么用q拟合它呢，如果用左边的散度去度量，算分布之间的误差，这个误差对应的就是KL散度，然后根据KL散度去有方向地去调整。这是它的过程，类似于机器学习里面的过程。
如果用左边的KL散度，p在前q在后，那我们会得到这样一个结果；绿色的是拟合的概率。它的效果是保证在高概率的地方，拟合的概率要高，而不考虑低概率的部分，所以结果就会做一个平滑。概率的总和还是1，要保证归一性嘛。右边反过来，q在前p在后，那么低概率要优先保证，高概率就忽略了，那么这个拟合的概率分布就尽量往一个峰靠，只能保证一个峰。这就解释了KL散度不对称性的应用，可以按照不同的应用场景取不同的方向。

image.png

网友评论

本文标题：数学基础_王奇文

本文链接：https://www.haomeiwen.com/subject/ydayiftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

数学基础_王奇文

相关文章