目前网络上流传着无数版本的人工智能入门书单,无一例外的都需要学习数学。对于很多毕业多年的程序猿(媛)来说,再次复习数学可能是一件很痛苦的事情。
初学者的热情都会被繁琐的公式、烧脑的概念给磨灭的所剩无几,本文将从人工智能所需的概率论知识入手,结合参考资料将复杂的公式和定理简单化,力求最快的进行一次人工智能基础入门。
01
古典概率模型
在古典概率模型中,试验的结果只包含有限个基本事件,且单个事件发生的可能性相同。这段话可能不好理解,先不着急。我们先看一下对应的数学解释。
假设所有的基本事件的数据为n,待观察的随机事件A包含的基本事件数目为k,则随机事件A发生的概率公式为:
image(1)
例如,在抛100次硬币的试验中,n = 100,想要观察“抛出正面”则称之为随机事件A,在100次试验中,随机事件A发生的次数是k = 50次,那么抛出正面的概率为 1/2。
上面的定义针对的是随机事件,如果想要刻画多个随机事件之间的关系,那么古典概率模型就无能为力了,需要引入其他的方式了,比如条件概率。
02
条件概率
什么是条件概率呢?
首先看一段数学解释:条件概率是根据已知信息对样本空间进行调整后得到的新的概率分布。条件概率仍然描述的是样本空间的概率分布,只不过需要根据已知的样本进行了调整。假设两个随机事件A和B,条件概率就是指事件A在事件B已经发生的条件下发生的概率,可以使用数学公式来表示:
image(2)
我们来看一个简单的例子:在一次足球比赛中,求解球队在已经0:2落后的情况下最后以3:2翻盘获胜的概率?0:2就是上式中的随机事件B,3:2获胜就是上式中的随机事件A。
我们继续来看一下几何解释:如下图,A∩B表示在B已发生的情况下A发生的概率,则P(A∩B) = P(AB)。就可以推导出上面的公式了。
imageP(AB)表示的联合概率,标识了随机事件A和随机事件B同时发生的概率。
如果联合概率P(AB)等于各自发生概率的乘积,也即P(AB) = P(A)·P(B),则表示随机事件A与随机事件B之间互相独立,没有任何关系,于是得出P(A|B) = P(B)。
03
全概率公式
了解联合概率、条件概率,我们来看一下全概率公式。全概率公式是用于将复杂事件的概率转换成在不同情况下简单事件发生的概率求和。先看个公式:
image image(3)
怎么理解上面的公式呢,我们看一个简单的例子:小明从家到公司有B1、B2、B3三条路,小明每次上班选择上述三条路的概率分别是P(B1)=0.5、P(B2)=0.3和******P(B3)=0.2。这三条路不拥堵的概率为P(A1)=0.2、P(A2)=0.4和P(A3)=0.5。求小明每次上班不迟到(不拥堵代表不迟到)的概率是多少?
image设随机事件A表示上班不迟到,则P(A|B1)、P(A|B2)、P(A|B3)分别表示选择B1\B2\B3上班不迟到的概率,那么就有:
image(4)
公式中的每一项表示:选择第i条路不迟到的概率 = 选择第i条路的概率 * 选择第i条路的前提下还不迟到的概率。
公式(1)和公式(2)等价,即为全概率公式。
全概率公式表示了一个解决概率论问题的思路:先做出一些假设P(Bi),再在这些假设的发生的情况下讨论复杂事件A发生的概率。
04
贝叶斯公式及定理
在上面小明上班不迟到的例子中,我们继续提问:求小明在不迟到的情况下,选择B1这条路的概率是多少。
在条件概率中我们推到除了公式(2),将公式(2)换个方式,就可以得到条件概率P(AB) = P(A|B)·P(B)。在这个问题中,小明不迟到的情况下选择B1这条路的概率P(B1|A)就等价于随机事件A(小明不迟到)和随机事件B(小明选择B1这条路)同时发生的概率P(AB)除以事件A的概率P(A)。也即:
image(5)
将上面的全概率公式带入(5)中,即可得到贝叶斯公式:
image(6)
我们将式(5)中的Bi和A分别替换为H和D,即可抽象出贝叶斯定理:
image(7)
其中P(H)表示先验概率,即预先设定的假设成立的概率;
p(D|H)表示似然概率,即假设成立的前提下结果发生的概率;
P(H|D)表示后验概率,即结果发生的前提下,假设成立的概率。
比较抽象,我们仍然利用上述选路的例子来进行说明:
P(B1)就是先验概率,表示了假设选择第一条路的概率;
P(A|B1)就是似然概率,表示了选择第一条路前提下不迟到的概率;
P(B1|A)就是后验概率,表示了在不迟到的结果下,假设选第一条路的概率。
贝叶斯定理关注的是后验概率,即根据观察到的结果来寻找合理的假设。
05
两个学派
其实概率论的研究可以根据上述的古典模型和贝叶斯定理分为两个学派:
-
频率学派
-
贝叶斯学派
同一个硬币向上抛10次,正面朝上的次数即为频率。从事件发生的频率来认识概率的研究方向,被称为“频率学派”。
天气预报以及明天下雨的概率是80%,就不能从频率的角度来认识了,这个只能看做是可信度,也就是说明天下雨的可信度是80%。从随机事件发生的可信度来认识概率的研究方向,被称为“贝叶斯学派”。
频率学派认为假设是客观存在且不会改变的,即存在固定的先验概率。
贝叶斯学派认为固定的先验概率不存在,参数本身也是随机,也就是说假设是取决于观察结果的,不确定且可以修正的。数据就是用来对假设进行调整的,也即调参。
06
参数估计
在机器学习中,我们经常会听到参数、模型等概念,那这些概念表示什么呢?比如,我们可以使用公式y=ax+b来描述一组数据的分布,这就是线性模型。那么参数a和b就确定了这个线性模型的形状。我们根据已经发生的样本数据来分析总体对应的模型,就需要估计参数,这就是参数估计。
在概率论中,参数估计有两种方式,分别是:
-
最大似然估计
-
最大后验估计
这两种估计方法分别对应了“频率学派”和"贝叶斯学派"。那怎么理解这两种估计方法呢?
最大似然估计
似然,字面理解就是“貌似就是这样”,最大似然估计也即样本已经发生了,求使得样本发生概率最大时对应的参数值,因为既然样本能发生,那么这种情况概率就最大。
我们先看个简单的例子,在一个盒子里放了未知个数且大小均匀的黑球和白球,每次从盒子里取一个球,记录它的颜色之后放回到盒子里。现在共取了100个球,其中黑球的个数是60个,那么通过黑球出现的频率我们知道黑球的概率是60%,为什么呢?这里头包含了什么思想呢?
我们先假设黑球的概率是p,我们定义随机事件A表示100次试验中黑球出现60次,白球出现40次,那么就有:
image(8)
我们知道,最大似然估计的思想是,随机事件已经发生,找出参数似的随机事件A发生的概率最大,即找到参数p的值使得P(A)最大。在高等数学中,我们知道函数的极值就是该函数导数为0的点。对P(A)求导数,于是有了下面的式子:
image(9)
根据式(9)即可得到 p = 60%。
这就是最大似然估计的数学思想。
最大后验估计
最大后验估计运用的其实是贝叶斯公式,考虑的是找到一个参数值使得后验概率最大。我们由贝叶斯公式知道:
image(10)
需要找到一个θ的值(θ满足先验分布p(θ))使得后验概率p(θ|D)取最大值。也就是说上面就可以看做一个关于θ的函数,我们记为L(θ),由于D与θ无关,所以可以看成***L(θ) = P(D|θ) *· P(θ) ****。可以看到P(D|θ)是似然概率,如果p(θ)先验概率为1,那么最大后验估计的值跟最大似然估计的值就是一样的了。所以,最大后验估计其实就是加入了一个先验概率来进行纠正。
我们来看一个使用贝叶斯公式计算概率的经典问题:
有一种病,通过抽样调查,在人群中的得病率为1%,采取了一种检查手段,如果报告呈阳性说明有95%的可能性患病,请问如果一个人的检查报告呈阳性,那么他患病的概率是多少?
王天一《人工智能基础课》
其实就是求条件概率。
image这个例子说明了什么呢?得病是存在先验分布的,也就是人群中的患病率为1%。如果不考虑这个先验分布,那么他患病的概率就是95%。这就是最大后验估计的数学思想。
** 结语 **
概率论的很多思想被广泛应用于机器学习中,学好概率论是入门机器学习的前提之一,一起加油!
关于关注公众号“岁与禾”,查看更多精彩内容!
网友评论