首先我解释一下为什么需要先说贝叶斯滤波和卡尔曼滤波呢,这是因为这些概念知识在随后多处很用到,所以感觉有必要先把这些基础理论说清楚,大家一步一个脚印走下去才不会遇到瓶颈而无法前进。
极大似然估计
简单说一下似然估计,这个在机器学习中也是一个重要理论。其实也可以这样理解,我们还是通过一个例子进行说明解释,首先我们认为小事件 100 个球其中蓝球 99 个红球 1 个,然后计算蓝球或红球的概率分别是 99% 和 1%,这就是传统经典概率。100 球直到其中有红球也有蓝球,知道蓝球不是 99 个就是 1 个,也就是我们已经知道概率分布为红球或蓝球可能有种是 99 个球,另一个颜色球就是 1 个,在这种情况下,我们从任取一个球,发现是蓝色的球。根据我们看到结果就可以推测分布情况为蓝球 99% 而红球 1%,这就是极大似然概率理论解释。
状态和观测
这里我们通常将观测看作结果而将状态看作原因,因为有了原因才有结果,也就是存在真实温度我们才能进行测量得到测量值,测量值是真实温度状态的一种观测到状态的反映。后验概率由果推因,也就是我们观测到测量值后推测得到测量的原因。例如我们测量得到结果为 30.5 度,那么能够产生 30.5 度测量值的原因概率是多少,也就是当测量值为 30.5 度真实值是 31 概率是多少、是 32 概率多少,是 30 度概率是多少。
似然概率是由因推果,衡量哪一个原因最有可能导致这个结果的概率。
连续随机变量的贝叶斯公式
其中 X < x 作为条件概率看起来好像有点奇怪也没法求解,而且分母也是 0 如果不知道分母为什么为 0 需要看一看随机变量的概率密度。贝叶斯公式无法直接运用于连续随机变量,可以利用化积分为求和对公式进行化简,因为积分本质就是无数个无穷小相加的结果。
可以转化为 所以我们就可以得到
因为如果有一定概率密度知识,大家都知道现在公式是分母和分子都是 0,因为都是求连续函数某一点概率,其实也不是这样,应该是无穷小,趋近于 0 而不是 0 那么两个趋近于 0 的数相除可能不是 0 ,所以我们可以反过来将无穷小写成极限的形式。
这里需要简单解释一下,我们将 Y 随机变量取值变为从 y 到 y 加上一个非常小 来表示,同理 X 随机变量取值也变为从 u 到 u 加上 的区间,这样一来就不存在分母和分子同时为 0 然后我们可以用积分方式表示 也就是 然后用中值定理改写公式为了
这里可能大家已经忘记了定积分的定义,其实定积分就是为解决曲边梯形面积而引入积分,也就是通过在 a 到 b 间插入若干分点。
注意这些分点分割的距离可以是有大有小,并不一定需要等分。我们用 分别来表示他们这些分点切割出来距离。然后在每一个小区间内任取一个点,然后用这一点函数值作为高,用高度
这样可以用若干小矩形面积和来仅是曲边梯形面积。
我们先看 lambda 这里 lamba 是这些小区间中最大小区间的长度,当 lambda 趋于 0 也就表示这些小区间有无穷多个,并且每一个小区间足够小可以近似曲边梯形的面积。所以我们上面公式这里积分公式类似可以通过推导将上面公式写成积分形式。
这里将 u 替换为 x 这是根据积分性质来的,积分只与积分函数和积分区间有关,与其他无关所以可以将 u 替换 x 表示更清楚。到现在为止我们就完成连续随机变量贝叶斯公式的推导。
我们也可以对后验概率进行求解
将后验概率带入上面连续随机变量贝叶斯公式就得到下面的公式
这个公式看上去很舒服了吧,因为和我们之前看到离散随机变量贝叶斯公式很相似。但是大家通过推导过程可以发现他们离散和连续随机变量贝叶斯公式虽然最终结果很相似,但是推导过程确实不同的。
这个是从概率分布角度来表示连续随机变量贝叶斯公式
这个是从概率密度角度来表示连续随机变量贝叶斯公式
大家一定对概率分布和概率密度进行区分,一旦混淆就可能造成对一些概念理解上的偏差。概率密度是Probability Density Function (PDF)而概率分布函数(CDF)
在连续随机变量也可以将其写成类似离散随机变量的贝叶斯公式形式,也就是后验概率与似然概率和先验概率的乘积成比例
要证明这个成立我们需要证明是一个常数
这里用到联合概率密度与边缘概率密度的关系。一个边缘概率可以写成联合概率密度积分。其实这个本质是连续随机变量下全概率公式。我们还是简单说一下连续的联合密度和边缘密度,已经了解朋友可以跳过这里
F 表示分布函数和 f 表示密度函数,f(x,y) 就是联合密度函数。
- f(x,y) 大于等于 0
然后用条件概率来表示联合概率,就得到下面公式从而证明了是一个常数。这个应该不用在做过多解释了吧。
贝叶斯滤波和卡尔曼滤波有着广泛应用,那么贝叶斯滤波是如何通过贝叶斯公式来实现对信息不确定性的过滤。
今天我们继续说连续随机变量贝叶斯,通过一个公式让大家来加深对连续随机变量贝叶斯公式的认识。
用一个服从正态分布的先验概率来描述先验概率,其中 10 表示期望而方差为 1.方差也就是我们对猜测不确定性的把握。然后进行观测 y = 9
这里解释一下这个为什么是 0 首先 对 y 积分那么得到 x 函数,然后在对于 x 函数进行求 y 导数也就是 0。
网友评论