机器学习菜鸟,记录一些数学笔记,方便自己阅读和理解。
期望E的下标
- 将下标符号中的变量作为条件
例子一:
例子二:
- 将下标符号中的变量用作计算平均
例子一:
例子二:
例子三:
期望的一些公式
- 离散型:
- 连续性 :
- 如果
是连续型随机变量,那么随机变量函数
的数学期望是
- 二维随机变量
的分布律为
, 对于
, 数学期望为
- 二维随机变量
的密度函数
, 数学期望为
- 如果随机变量相互独立
条件分布
- 连续性随机变量, 二维随机变量
的联合密度函数为
, 边缘密度函数分别为
, 在
的条件下,
的条件密度函数为
. 在
的条件下,
的条件密度函数为
.
- 从以上两个式子可知:
,
- 也就是说,连续场合下的全概率公式:
,
- 因此,连续场合下的贝叶斯公式是;
. ,
- 一些公式
. 这是因为,我们可以将
看作是
的函数,给定一个条件
,就产生一个确定的的值, 说明该随机变量的概率依赖于
, 则概率密度函数为
, 从而,期望是变量和概率密度函数的积分。
-是离散型随机变量:
- -
是连续型随机变量:
条件期望
- 在
的条件下,
的期望.
-
和
离散场合下:
-
是连续,
是离散场合下:
-
都是连续性随机变量, 联合密度函数为
,
的密度函数为
,
的条件密度函数概率
, 则
- 在
的条件下,
的期望.
离散场合下:
连续场合下:
先验、后验、似然和贝叶斯
- 首先, 我们熟知的贝叶斯是这样的;
, 即
.
我们可以把理解为原因(模型参数),
理解为结果(样本).
是似然分布,
是后验概率,
是证据,
是先验分布.
- 一般来说, 先验代表的是人们抽样前对参数的认识(
的估计), 后验代表的人们抽样之后对参数的认识,所以后验可以理解为根据抽样信息对先验的调整。
最大似然
-
首先区分概率和统计: 概率是已知模型和参数,推数据。统计是已知数据,推模型和参数
- 概率:已知一个模型和参数,预测模型产生结果的特性(均值、方差等)。 比如,我想研究养花(模型),然后想好了买啥化,怎么养(参数),最后这花养的到底怎么样(结果)
- 统计:利用数据推断模型的和参数。我有很多花,想根据品相判断咋样的。
-
:
表示一个具体的数据,
表示模型的参数。
- 如果
已知,
是变量,这个叫做概率函数
- 如果
已知,
是变量,这个叫做似然函数
- 如果
-
似然的本质是说,利用已知样本的信息,得到最大概率导致这些样本出现的模型参数。比如,我扔10次硬币,得到一组数据(
),结果6次正面朝上,那根据最大似然,我模型的参数是最有可能得到6次正面朝上的参数, 即
,
我就求使这个函数的值最大就行. , 即
最大后验
- 有人说,硬币正面朝上应该是0.5的概率,这就是我们引入了先验的思想。
- 最大似然是求
使得
最大。 最大后验是求的
使得
最大, 不止似然最大,而且是在先验的时候最大(这有点像正则化里加惩罚项的思想,不过正则化里是利用加法,而最大后验里是利用乘法)。 即
这里面就是样本本身,是一个已知值。 当我们认为认为
是均匀分布时(就是没提供啥有用的信息进来),似然=后验。

最大化似然的公式:

最大后验公式:
- 由于
中的
, 在给定任意的
时总是常数, 对
没有任何影响,所以不影响求极值。 最大化最大后验的公式为:
因此最大化后验就是在最大化似然函数之上加了一个先验分布, 所以当先验为均匀分布时(也就是信息确实),两者相等。
经验风险最小化和结构风险最小化
经验风险最小化与结构风险最小化是对于损失函数而言的。可以说经验风险最小化只侧重训练数据集上的损失降到最低;而结构风险最小化是在经验风险最小化的基础上约束模型的复杂度,使其在训练数据集的损失降到最低的同时,模型不至于过于复杂,相当于在损失函数上增加了正则项,防止模型出现过拟合状态。这一点也符合奥卡姆剃刀原则:如无必要,勿增实体。
经验风险最小化可以看作是采用了极大似然的参数评估方法,更侧重从数据中学习模型的潜在参数,而且是只看重数据样本本身。这样在数据样本缺失的情况下,很容易管中窥豹,模型发生过拟合的状态;结构风险最小化采用了最大后验概率估计的思想来推测模型参数,不仅仅是依赖数据,还依靠模型参数的先验假设。这样在数据样本不是很充分的情况下,我们可以通过模型参数的先验假设,辅助以数据样本,做到尽可能的还原真实模型分布。
信息熵
- 信息熵的定义:
香农熵的本质是香农信息量的期望,代表了一个系统的不确定性,信息熵越大, 不确定性越大。
是一个事件的概率,概率越大,不确定性越小。
交叉熵
-
为真实分布,
为非真实分布,交叉熵越低,意味着
约接近
相对熵(KL散度)
- 衡量两个分布之间的差异,相对熵就是交叉熵减去信息熵
互信息
- 互信息在信息论和机器学习中非常重要,其可以评价两个分布之间的距离,这主要归因于其对称性,假设互信息不具备对称性,那么就不能作为距离度量。即相对熵,由于不满足对称性,故通常说相对熵是评价分布的相似程度,而不会说距离。
- 互信息的定义:一个随机变量由于已知另一个随机变量而减少的不确定性。
联合熵
条件熵
- 条件熵的定义为:在X给定条件下,Y的条件概率分布的熵对X的数学期望。
因此,
变分推断
慢慢学。。。
网友评论