统计学习方法读书笔记——第六章逻辑斯谛回归与最大熵模型

统计学习方法读书笔记——第六章逻辑斯谛回归与最大熵模型

作者: Jarkata | 来源:发表于2021-02-20 10:44 被阅读0次

逻辑斯谛回归(logistic regression)是统计学习中经典的分类方法。最大熵是概率模型学习的一个准则，将其推广到分类模型得到最大熵模型(maximum entropy model)。

逻辑斯谛回归模型与最大熵模型都属于对数线性模型。

6.1 逻辑斯谛回归模型

6.1.1 逻辑斯谛分布

逻辑斯谛分布的定义：

逻辑斯谛分布的密度函数和分布函数的图形：

6.1.2 二项逻辑斯谛回归模型

逻辑斯谛回归模型的定义：

逻辑斯谛回归模型的特点：
一个事件的几率(odds)是指该事件发生的概率与该事件不发生的概率的比值。
若发生概率为 $p$ ，则该事件的几率为 $\frac{p}{1-p}$ ，该事件的对数几率(log odds) 或 logit函数为: $logit(p)=log\frac{p}{1-p}$

对逻辑斯谛回归而言， $log\frac{P(Y=1|x)}{1-P(Y=1|x)}= w \cdot x$ 。即输出 $Y=1$ 的对数几率是输入 $x$ 的线性函数。

换一个角度看：

6.1.3 模型参数估计

可应用极大似然估计法估计模型参数，从而得到逻辑斯谛回归模型。

这样问题就变成了以对数似然函数为目标函数的最优化问题。逻辑斯谛回归学习中通常采用的方法是梯度下降法及拟牛顿法。

最终学到的逻辑斯谛回归模型为：

6.1.4 多项逻辑斯谛回归

可以将上述二类分类模型推广位多项逻辑斯谛回归模型，用于多类分类。

6.2 最大熵模型

最大熵模型由最大熵原理推导实现。

6.2.1 最大熵原理

最大熵原理：是一个准则，满足约束的熵最大的模型是最好的模型。

在满足约束条件的情况下，那些不确定的部分都是“等可能的”。通过熵的最大化来表示“等可能性”。
举个最大熵原理的例子：

6.2.2 最大熵模型的定义

将最大熵原理应用到分类得到最大熵模型。
假设分类模型是一个条件概率分布P(Y|X)，那么约束为特征函数关于经验分布P(X,Y)的期望值和关于模型P(Y|X)与P(X)的期望值相等。

最大熵模型的定义：

6.2.3 最大熵模型的学习

最大熵模型的学习可以形式化为约束最优化问题。

将约束最优化的原始问题转换为无约束最优化的对偶问题。通过求解对偶问题求解原始问题。

首先求解对偶问题(6.19)的内部极小化问题。

之后求解对偶问题外部的最大化问题。

6.2.4 极大似然估计

从以上最大熵模型学习中可以看出，最大熵模型是由式(6.22)、式(6.23)表示的条件概率分布。
可以证明对偶函数的极大化等价于最大熵模型的极大似然估计。

可以将最大熵模型写成更一般的形式：

6.3 模型学习的最优化算法

6.3.1 改进的迭代尺度法

改进的迭代尺度法(improved iterative scaling, IIS) 是一种最大熵模型学习的最优化算法。

目标是通过极大似然估计学习模型参数，即求对数似然函数的极大值

\hat w

。
IIS的核心思想：

6.3.2 拟牛顿法

最大熵模型还可以应用牛顿法或拟牛顿法。

本章概要

逻辑斯蒂回归
最大熵模型
最大熵原理
逻辑斯谛回归模型与最大熵模型都属于对数线性模型。

相关文章

网友评论

本文标题：统计学习方法读书笔记——第六章逻辑斯谛回归与最大熵模型

本文链接：https://www.haomeiwen.com/subject/cunpxltx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|统计学习方法读书笔记——第六章逻辑斯谛回归与最大熵模型|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！