1.其中用到拉格朗日乘子法得到了的最优化的原始问题:
但是对w并不一定是求最大值,也可能是求最小值如:
但是这并不影响,因为最小值也具有对偶性。
2.逻辑回归是最大熵最简单的二元形式,让我们来带入最大熵公式来看看
正好是逻辑回归的形式,而softmax是多元逻辑回归,因此也符合最大熵的原理。
3.最大熵为了让模型的期望和经验分布的期望相等,因此引入了约束条件,为了求解有约束的最优化问题,引入了拉格朗日乘子(这里顺便提一下,拉格朗日乘子法和神经网络中的正则化是有点相似的),并通过他的对偶性,将原始问题转换为对偶问题,从而求出了优美的最大熵函数:(写出来很复杂其实真的很优美!)
4.通过极大似然估计也能证明对偶性。为什么条件概率的似然函数是:
可以参考https://blog.csdn.net/wkebj/article/details/77965714
5.优化算法,
他本身不是梯度,所以迭代时间长,不稳定。
后来提出了IIS,它比GIS计算时少了两个数量级,而且也算是对GIS的一种推广。
还可以用梯度下降,拟牛顿法之类的.....
6.前面学习决策树的时候,一直有个疑问,为什么基尼系数的定义是
为什么是这样简单的分配,现在终于找到答案啦!这就是符合最大熵的原理!因为在你不知道每个样本的重要程度的时候,把他们赋予相同的权重是风险最小化的做法,这也是我们常说的不要把鸡蛋放在一个篮子里。
7.再来谈谈对权重的理解,当我们做predict的时候,我们首先看一看这个样本的某一个特征是否存在权重,如果存在权重则带入最大熵的公式获得期望,若不存在则说明期望为零,之后再把这个样本的所有特征的期望相加得到一个总的期望,比较所有标签的期望,哪个期望大,就选择哪个标签!
网友评论