美文网首页
附录B:机器学习基础之最大似然估计

附录B:机器学习基础之最大似然估计

作者: 秋的懵懂 | 来源:发表于2018-08-21 15:10 被阅读0次

时间:2018-08-20 作者:魏文应


一、说明

上一节,我们说过,似然这个词是从 likelihood这个词直译 成中文的。有学者认为译得不好,词不达意。似然,文言文中,似就是像,然就是样子,似然就是像什么什么的样子。而likelihood这个单词,英文中是可能性的意思,其实它说的就是 可能性的大小。所以,似然在这里,就是指概率的意思,最大似然估计 就是 最大概率估计。那么,我们要对什么事件发生的概率进行估计呢?这就是本节要讨论的内容。

二、预备知识

说明最大似然估计之前,我们需要一些预备知识。这些预备知识都 比较简单,但对于普通程序员来说,应该忘得差不多了。我们下面来回忆一下,相对于教科书,我讲的内容是不严谨的,只是说出是什么意思就够了。

随机变量

这个比较简单,就是 随机发生的事情。比如,你约一个女孩子吃饭,一共约了5次。成功的次数有下面6种情况:X = {0,1,2, 3, 4, 5}。这里的 X 就是 随机变量,它的值可以是 {0, 1, 2, 3, 4, 5} 中的任意一个。

离散型随机变量

离散,顾名思义,就是 分离的、散开的。比如 {1, 2, 3, 4,5} 就是离散的,{0 < x < 10} 这个 x 的取值就是连续的:

离散型随机变量

分布律

分布律,也就是 分布规律。我们用 \{X = x_k\} 表示一个事件,比如下面式子:

P\{X = x_k\} = p_k

这个式子的意思就是,发生 X = x_k 这件事的概率是 p_k 。上面我说,你约女孩子5次,成功的次数有 {0, 1, 2, 3, 4, 5} 这六种情况,x_k 可取的就是这些值。上面式子可以反映 x_k 取不同值时概率 p_k 的情况,也就是分布情况,正因为如此,这个式子被称为 X 的分布律。说白了,一件事情会发生各种情况,每种情况发生的概率用式子表示出来,这个式子其实就是根据概率分布情况统计出来的规律。只要能表示概率发生的规律,你 用表格表示 出来也是可以的,也可以叫做 X 的分布律。

分布函数

分布律是用一个式子表示概率分布的情况,其实我们也可以 用一个函数来表示概率的分布情况,我们把这个函数叫做 分布函数。不过,分布函数的定义有点不走寻常路:

F(x) = P\{X \leq x\}

这是什么意思呢?一件事情发生有很多种可能,我们把这些可能的情况进行依次编号,从小到大排列这些编号,你指定一个编号 x ,有一些情况的编号小于等于x把这些事件发生的概率都加起来,得到的和就是 分布函数 F(x) 。还拿你约女孩子5次这件事来说,成功的次数有 {0, 1, 2, 3, 4, 5} 这六种情况,比如 F(1) 表示小于等于1次的概率,这个概率就是: F(1) = P\{X=0\} + P\{X=1\}

概率分布图

上面是关于你约会的概率分布函数,它假设了每种情况发生的概率为\frac{1}{6}

数学符号 \Delta x\mathrm{d}x

有时候可能会忘记 \Delta x\mathrm{d}x 是什么意思。这两个的意思都是一样的,都表示 差值

\Delta x = \mathrm{d}x = x_2 - x_1

比如,函数 y = f(x) 求导以后的导函数,可以表示为:

y\prime = f\prime(x) = \frac{\Delta y}{\Delta x} = \frac{ \mathrm{d}y } { \mathrm{d} x} = \frac{ \mathrm{d}f(x) } { \mathrm{d} x} = \lim _{\Delta x \rightarrow 0} {\frac{f(x + \Delta x) - f(x)}{\Delta x}}

定积分

定积分用来干嘛的?你可以把它看做是用来求面积的,虽然它远远不止用于求面积。比如下面的图:

使用定积分计算面积

曲线 y = f(x) 、坐标 x 轴构成、 直线 x = a、直线 x = b 围成上面 阴影部分的面积。为了求这个面积,我们随便定义一个公式,写法如下:

S = \sum_{i=1}^n f(\xi_i)\Delta x = \int_{a}^b f(x) \mathrm{d} x

首先,我们把阴影部分面积看作是由很多 矩形组成 的。用 f(\xi_i) 表示矩形的高,用 \Delta x 表示矩形的宽,宽乘以高就是其中一个矩形的面积 f(\xi_i)\Delta x,把所有矩形都加起来,就是阴影面积 \sum_{i=1}^n f(\xi_i)\Delta x 。如果有无数个矩形,不断地细化,使得矩形顶部接近曲线 y = f(x),这样,我们就可以用 f(x)\mathrm{d} x 来替代 f(\xi_i)\Delta xf(x) 就是高 f(\xi_i)\mathrm{d}x 就是宽 \Delta xx 的范围就是 (a, b)\int_{a}^b 表示从 a 的位置开始,面积不断相加,直到 b 的位置为止。这时你已经知道什么是定积分了,但 怎么方便地计算出来 的呢?总不能老是这么一个一个加吧!下面我们来看一个矩形的面积大小:

\Delta S = f(\xi_i)\Delta x = f(x)\mathrm{d}x

把上面这个公式写成下面形式:

f(x) = \frac{\Delta S}{\mathrm{d} x } = \frac{\Delta S}{\Delta x}

上面这个公式,是不是很眼熟? \frac{\Delta S}{\Delta x} 这个就是 导数的定义,高中大家就学过了。这就是说,f(x) 是某个函数求导以后得到的:

F \prime { (x) } = \frac{\mathrm{d}F(x)}{\mathrm{d} x} = f(x) = \frac{\Delta S}{\Delta x}

看上面式子,\mathrm{d}F(x) = \Delta S 。所以,上面阴影部分的面积,在 a 到 b 之间:

S = F(b) - F(a)

因为 f(x) 是由 F(x) 求导 , 所以把 F(x) 称为 f(x)原函数 。也就说,只要求得 f(x) 的原函数 F(x) ,就可以求得不定积分的值了,也就是阴影部分的面积:

S = \int_{a}^b f(x) \mathrm{d}x = F(b) - F(a)

上面公式就是 不定积分的计算方法(牛顿-莱布尼茨公式)。但问题来了,怎么找到 f(x) 的原函数 F(x) 呢?我们知道,常数项求导以后,就没有了,比如 y = 2x^2 - 1 ,求导以后得到 y \prime = 4x ,那个 1 就没有了,也就是说:

f(x) = ( F(x) + C ) \prime

F(x) + C 这个也是 f(x) 原函数,不过数学上,给它起了一个名字,叫做 不定积分。原函数 F(x) + C 叫做 f(x)不定积分 。还把它写成下面这种形式:

F(x) + C = \int f(x){\mathrm{d}x}

事实上,定积分计算不需要不定积分的常数项,你看:

(F(x_2) - C) - (F(x_1) - C) = F(x_2) - F(x_1)

压根没有常数 C 什么事。正常情况下,我们都是根据经验,求得原函数的。比如:sin (x) 求导可以得到 \cos (x) ,那么 \cos (x) 的原函数就 \sin (x) 。数学上应该有一些方法,可以计算得到原函数,我们不深究,用到了你查一查就知道了。

概率密度

讲概率密度前,我们先说 连续随机变量。日常生活中,比如你的体重是71kg,但真的是71kg吗?可以这么说,绝对不是71kg,它可能是71.0001kg,也可能是71.002kg。所以,可以说 P{体重 = 71kg} = 0 。 但你可以说你的体重在 70kg 到 72kg 之间,这个概率就非常大,因为你用秤称得71kg嘛。对于体重这种 连续的变量,我们一般估算的是它在 某个范围的概率值,而不关心具体某个具体值发生的概率值。我们说,分布函数是从左到右把各种情况发生的概率加起来,加到你指定的x_n那个位置为止:

F(X) = P(x_1) + P(x_2) + \cdots + P(x_n)

我们用 条柱的面积 表示 概率的大小。图中的F(X)函数反映的是,从左边往右,把一个个条柱面积相加得到的和的变化曲线。最终,把所有可能的概率加起来,概率和 F(X) = 1。把概率P平滑处理了以后,就是 概率密度f(x)了,阴影部分的面积,就是全部概率的和,值为1。

概率密度

这么说,计算分布函数 F(X) ,就是将阴影部分面积加起来。那阴影部分面积怎么计算?上面讲了不定积分,不定积分公式可以计算这种不规则的图形的面积:

F(X) = \int_{-\infty}^x f(x)dx = F(x) - F(-\infty)

f(x)F(X) 的导数,我们把它叫做 F(x)概率密度 。。生活中,人口密度反映了各个地区人口分布情况,知道哪个地方人口比较集中,哪个地方人口比较稀疏。同样的,概率密度直接反映了概率的分布情况,在某个x 区间,f(x) 的值越大,说明这个区间发生某件事的概率越大。

如果你想求在某个区间内,发生某件事的概率,那么就是:F(X_n) - F(X_{n-1}) 。对应于上面 概率密度函数f(x) 图中的分红色区域,这区域的面积,就是发生在 (X_n,X_{n-1}) 这个区间的概率。

三、

相关文章

  • 附录B:机器学习基础之最大似然估计

    时间:2018-08-20 作者:魏文应 一、说明 上一节,我们说过,似然这个词是从 likelihood这个词直...

  • 附录D:概率论基础之多维随机变量及其分布

    时间:2018-09-07 作者:魏文应 一、二维随机变量 我们在《附录B:机器学习基础之最大似然估计》讲过什么是...

  • 线性回归

    线性回归 @(机器学习经典算法总结) 最大似然估计(Maximum likelihood Estimate) 在开...

  • 极大似然估计和贝叶斯估计

    '参数估计'学习总结 最大似然估计 回顾一下贝叶斯定理 似然函数 最大似然估计就是要用似然函数取到最大值时的参数值...

  • 机器学习-极大似然估计

    极大似然估计方法在机器学习中用的非常多,是一个必须要掌握的知识点。在周志华《机器学习》中这一章讲的较为简略,以下我...

  • 机器学习:极大似然估计

    极大似然估计(Maximum Likelihood Estimate,MLE)  由于样本数据,是实实在在发生的数...

  • 机器学习-极大似然估计

    极大似然估计方法在机器学习中用的非常多,是一个必须要掌握的知识点。在周志华《机器学习》中这一章讲的较为简略,以下我...

  • 最大似然估计

    0.参数估计 参数估计分为:点估计区间估计 点估计包含:矩估计法最大似然估计法(本章讲这里)最小二乘法贝叶斯估计法...

  • 最大似然估计

    很简单,如果把产生的误差比作犯罪,那最大似然估计就是找出最有可能作案的犯罪嫌疑人,即找到参数长什么样如何组合会导致...

  • 最大似然估计

    极大似然估计,通俗理解来说,就是利用已知的样本结果信息,反推最具有可能(最大概率)导致这些样本结果出现的模型参数值...

网友评论

      本文标题:附录B:机器学习基础之最大似然估计

      本文链接:https://www.haomeiwen.com/subject/lorliftx.html