01 | 机器学习_频率视角下的机器学习

作者: alphonseLin | 来源:发表于2019-05-30 01:50 被阅读0次

频率统计理论的核心在于，认定的估计得成熟，是固定不变的常量，讨论参数的概率分布是没有意义的，我用来估计参数的数据是随机的变量，每个数据都是常数支配，下一次独立实验的结果。由于参数本身是确定的，那频率的波动，就并非来源于参数本身的不确定性，而是由有限次观察造成的干扰而导致。

所以呢，我们需要考虑的是，一方面，根据这些不精确的数据，就可以对未知参数的精确取值作出有效的推动，另一方面，数据中包含的只是关于参数不完全的信息，所以从样本估计整体就必然会产生误差。

所以我们要做的第1步就是要做采样分布。所以当我们把采样分布做完后，参数估计可以等效成一个最优化问题，也就是最大似然估计。

那最大似然估计又是什么？他的目标是让自然概率最大化，也就是固定参数的前提之下，数据出现的条件概率最大化。所以频率学派估计参数的基本出发点，一组数据之所以能够在单次试验中出现，是因为他出现的可能性最大，而参数估计的过程就是赋予观测数据最大似然概率的过程。

image.png

所以当我们要用最大似然估计解决这个问题的时候，首先就要对自然概率进行建模，面膜中的一个重要假设就是假定未知形式的噪声满足高斯分布。所以呢，从理论上说，在功率有限的条件下，高斯噪声信源熵最大，因而带来的不确定性也就越大，换句话说，这是最恶劣的噪声。从实践上说，真实的噪声通常来源于多个独立的物理过程，都具有不同的概率分布，中心极限定理告诉我们，按照噪声源的数目越来越多时，它们的叠加趋近于高斯分布，因而高斯噪声，对真实情况的一个合理模拟。

image.png

所以当我们从这些公式上可以发现，虽然真实值是固定值，但估计值却是数据的函数，也是个随机变量。
所以在这里我们需要引入另外一个概念，用来度量随机变量的估计值和作为客观常量的真实值之间的偏差，置信区间。

所以，这个思路它其实是把可能的参数空间压成一个点，参数本身可能满足这样或那样的概率分布，但一旦实验的条件确定，表现出来就是一个固定的取值，让所有的概率分布都失去了意义。这就想说，即使上帝真的掷色子，但从脱手那一刻起，他的点数就不再受上帝的控制，也就变成了确定不变的取值。所以频率主义者关注的就是这个真实存在的唯一参数，通过计算它对数据的影响来实现估计。
在这里我们将频率主义“参数确定，数据随机”的思路应用在机器学习当中得到的，得到的就是统计机器学习。统计机器学习的做法是通过对给定的指标，比如似然函数或，均方误差进行最优化，来估计模型中参数的取值。估计时并不考虑参数的不确定性，也就是不考虑未知参数的先验分布，和参数相关的信息全部来源于数据，输出的则是未知参数，唯一的估计结果，这就是统计机器学习的核心特征。

受到任何干扰的影响，观测数据并不是未知参数的准确反映，因此如何衡量估计结果的精确程度，就成为统计机器学习中的一个关键问题。损失函数直接定义了模型性能的度量方式，其数学期望被称为风险，风险最小化就是参数估计的依据和准则，但风险的计算并不能一蹴而就：估计追求参数需要计算风险，计算风险时需要在数据的概率分布上被损失函数进行积分，他表示数据的分布又依赖未知参数的精确取值，这就给频率主义出了一个无解的问题，风险函数是没有办法精确求解。

为了解决这个问题，统计机器学习引入了经验风险，用训练数据的经验分布替换掉原始表达式中数据的真实分布，因此将分解函数转化成了可计算的数值，在真实的学习算法中，无论是分类问题中的误分类率，还是回归问题中的均方误差，都是经验风险的实例，我所谓的最优模型也就是使经验风险最小化的那个模型。

所以今天
第1点，频率学派认为概率是随机事件发生频率的极限值。
第2点，频率学派执行参数估计时，视参数为确定取值，视数据为随机变量。
第3点，频率学派主要使用最大似然估计法，，让数据在给定参数的自然概率最大化。
第4点，频率学派对应机器学习中的统计学习，以经验风险最小化作为模型选择的准则。

网友评论

一日一练（极客时间+C4D）

本文标题：01 | 机器学习_频率视角下的机器学习

本文链接：https://www.haomeiwen.com/subject/bbyptctx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

01 | 机器学习_频率视角下的机器学习

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

一日一练（极客时间+C4D）