美文网首页
统计学习方法读书笔记——第六章 逻辑斯谛回归与最大熵模型

统计学习方法读书笔记——第六章 逻辑斯谛回归与最大熵模型

作者: Jarkata | 来源:发表于2021-02-20 10:44 被阅读0次

    逻辑斯谛回归(logistic regression)是统计学习中经典的分类方法。最大熵是概率模型学习的一个准则,将其推广到分类模型得到最大熵模型(maximum entropy model)。

    逻辑斯谛回归模型与最大熵模型都属于对数线性模型

    6.1 逻辑斯谛回归模型

    6.1.1 逻辑斯谛分布

    逻辑斯谛分布的定义:

    逻辑斯谛分布的密度函数和分布函数的图形:


    6.1.2 二项逻辑斯谛回归模型

    逻辑斯谛回归模型的定义:


    逻辑斯谛回归模型的特点
    一个事件的几率(odds)是指该事件发生的概率与该事件不发生的概率的比值。
    若发生概率为p,则该事件的几率为\frac{p}{1-p},该事件的对数几率(log odds) 或 logit函数为:logit(p)=log\frac{p}{1-p}

    对逻辑斯谛回归而言,log\frac{P(Y=1|x)}{1-P(Y=1|x)}= w \cdot x。即输出Y=1的对数几率是输入x的线性函数。

    换一个角度看:



    6.1.3 模型参数估计

    可应用极大似然估计法估计模型参数,从而得到逻辑斯谛回归模型。



    这样问题就变成了以对数似然函数为目标函数的最优化问题。逻辑斯谛回归学习中通常采用的方法是梯度下降法及拟牛顿法。

    最终学到的逻辑斯谛回归模型为:


    6.1.4 多项逻辑斯谛回归

    可以将上述二类分类模型推广位多项逻辑斯谛回归模型,用于多类分类。


    6.2 最大熵模型

    最大熵模型由最大熵原理推导实现。

    6.2.1 最大熵原理

    最大熵原理:是一个准则,满足约束的熵最大的模型是最好的模型。




    在满足约束条件的情况下,那些不确定的部分都是“等可能的”。通过熵的最大化来表示“等可能性”。
    举个最大熵原理的例子:


    6.2.2 最大熵模型的定义

    将最大熵原理应用到分类得到最大熵模型。
    假设分类模型是一个条件概率分布P(Y|X),那么约束为特征函数关于经验分布P(X,Y)的期望值和关于模型P(Y|X)与P(X)的期望值相等。



    最大熵模型的定义:

    6.2.3 最大熵模型的学习

    最大熵模型的学习可以形式化为约束最优化问题。


    将约束最优化的原始问题转换为无约束最优化的对偶问题。通过求解对偶问题求解原始问题。



    首先求解对偶问题(6.19)的内部极小化问题。




    之后求解对偶问题外部的最大化问题。

    6.2.4 极大似然估计

    从以上最大熵模型学习中可以看出,最大熵模型是由式(6.22)、式(6.23)表示的条件概率分布。
    可以证明对偶函数的极大化等价于最大熵模型的极大似然估计。

    可以将最大熵模型写成更一般的形式:


    6.3 模型学习的最优化算法

    6.3.1 改进的迭代尺度法

    改进的迭代尺度法(improved iterative scaling, IIS) 是一种最大熵模型学习的最优化算法。



    目标是通过极大似然估计学习模型参数,即求对数似然函数的极大值\hat w
    IIS的核心思想:

    6.3.2 拟牛顿法

    最大熵模型还可以应用牛顿法或拟牛顿法。

    本章概要

    1. 逻辑斯蒂回归




    2. 最大熵模型


    3. 最大熵原理


    4. 逻辑斯谛回归模型与最大熵模型都属于对数线性模型

    相关文章

      网友评论

          本文标题:统计学习方法读书笔记——第六章 逻辑斯谛回归与最大熵模型

          本文链接:https://www.haomeiwen.com/subject/cunpxltx.html