直观理解

大熵模型在分类方法里算是比较优的模型,但是由于它的约束函数的数目一般来说会随着样本量的增大而增大,导致样本量很大的时候,对偶函数优化求解的迭代过程非常慢,scikit-learn甚至都没有最大熵模型对应的类库。
最大熵的思想
- 当你要猜一个概率分布时,如果你对这个分布一无所知,那就猜熵最大的均匀分布;
- 如果你对这个分布知道一些情况,那么,就猜满足这些情况的熵最大的分布。
运用最大熵思想来做多分类问题
- 找出满足现有情况的分布P(y|x)
- 使得P(y|x)的熵最大化
优点
- 最大熵统计模型获得的是所有满足约束条件的模型中信息熵极大的模型,作为经典的分类模型时准确率较高。
- 以灵活地设置约束条件,通过约束条件的多少可以调节模型对未知数据的适应度和对已知数据的拟合程度
缺点
- 由于约束函数数量和样本数目有关系,导致迭代过程计算量巨大,实际应用比较难。
网友评论