线性回归和逻辑回归的极大似然估计

作者: 星光下的胖子 | 来源:发表于2021-04-28 09:59 被阅读0次

线性回归和逻辑回归的极大似然估计
机器学习笔记-04-理解正则化
机器学习笔记-2-线性回归和似然估计
逻辑回归与极大似然估计
一元线性回归
复习 - 求解线性回归的思路 - 最大似然估计、最小二乘法
逻辑回归常见面试总结
西瓜书笔记01：logistic回归、决策树
衍化至繁：逻辑回归
逻辑回归与最大熵模型

离散变量预测，称之为分类；连续变量预测，称之为回归。

本文总结，通过极大似然估计得到：

1）线性回归的代价函数 $J(\theta)$ 为均方误差 $MSE$ 。
2）逻辑回归的代价函数 $J(\theta)$ 为(经过 $sigmoid$ 映射后的)二元交叉熵 $BCE$ 。

一、线性回归

中心极限定理

中心极限定理是指，给定足够大的样本量，无论变量在总体中的分布如何，变量均值的抽样分布都将近似于正态分布。详细来讲，给定一个任意分布的总体，从这个总体中抽取n个样本，总共随机抽取m次（n、m越大越好），计算这m次的样本的平均值，则这些平均值的分布是正态分布，并且这些平均值的均值近似等于总体均值，平均值的方差为总体方差除以n。

误差

误差指的是实际值与预测值之间的差值： $y^{i} = \theta^{T} X^{i} + \epsilon^{i}$
我们期望预测结果 $\theta^{T} X^{i}$ 尽量接近实际值 $y^{i}$ ，即希望误差 $\epsilon^{i}$ 最小，因此需要对误差进行分析，以进行数学建模。
我们假设误差 $\epsilon^{i}$ 是独立同分布，且服从 $N(0, \sigma^2)$ 的高斯分布，则其概率密度函数为：
$P(\epsilon^{i}) = \frac{1}{\sqrt{2\pi}\sigma}\cdot e^{-\frac{(\epsilon^{i})^2}{2\sigma^2}}$

似然函数 $L(\theta)$

对于已经观察到的样本的结果，它的似然函数为：
$L(\theta) = \prod_{i=1}^n P(y^{i}|X^{i};\theta) = \prod_{i=1}^n P(\epsilon^{i}) = \prod_{i=1}^n \frac{1}{\sqrt{2\pi}\sigma}\cdot e^{-\frac{(y^{i} - \theta^{T} X^{i})^2}{2\sigma^2}}$
它表示在已知 $X;\theta$ 条件下， $Y=y$ 发生的概率值，显然 $L(\theta)$ 越大越好。

两边取对数，并展开化简得：
$\log L(\theta) = n \log \frac{1}{\sqrt{2\pi}\sigma} - \frac{1}{\sigma^2} \cdot \frac{1}{2} \sum_{i=1}^n(y^{i} - \theta^T X^{i})^2$
约去定值，并乘-1，将求最大值转换为求最小值：
$J(\theta) = \frac{1}{2n}\sum_{i=1}^n(y^i-\theta^T X^i)^2$
代价函数 $J(\theta)$ 称为L2损失或MSE(均方误差)。

二、逻辑斯蒂回归(解决分类问题)

伯努利分布

如果随机变量X只取0和1两个值，且相应的概率为：
$P(X=1)=p，P(X=0)=1-p，0<p<1$
则称随机变量X服从参数为 $p$ 的伯努利分布。

基于线性回归的思考

如何用线性回归来解决二分类问题？
1.通过 $sigmoid$ 函数将值域映射到(0, 1)之间，表示其为正样本的概率值。
$g(z^i) = \frac{1}{1 + e^{-z^i}}，z = \theta^T X^i$

2.若继续模仿线性回归，利用MSE作为代价函数，则此时代价函数是一个非凸函数，会有许多局部极小值，不利于求解，我们应该换一种思路。
$J(\theta) = \frac{1}{2n} \sum_{i=1}^n (y^i - g(z^i))^2 = \frac{1}{2n} \sum_{i=1}^n (y^i - \frac{1}{1 + e^{- \theta^T X^i}})^2$

似然函数 $L(\theta)$

在二分类问题中，y取值0，1服从伯努利分布，则有：
$y=1$ 时的概率为： $P(y=1|x;\theta) = g(z)$
$y=0$ 时的概率为： $P(y=0|x;\theta) = 1- g(z)$
合并得， $P(y|x;\theta) = g(z)^y(1-g(z))^{(1-y)}, y=0,1$

对于已经观察到的样本的结果，它的似然函数为：
$L(\theta) = \prod_{i=1}^n P(y^{i}|x^{i};\theta) = \prod_{i=1}^n g(z^{i})^{y^{i}}(1-g(z^{i}))^{(1-y^{i})}$
它表示在已知 $X;\theta$ 条件下， $Y=y$ 发生的概率值，显然 $L(\theta)$ 越大越好。

两边取对数，并展开化简得：
$\log{L(\theta)} = \sum_{i=1}^n [y^i \log{g(z^i)} + (1-y^i) \log{(1-g(z^i))}]$
乘以-1，将求最大值转换为求最小值：
$J(\theta) = -\sum_{i=1}^n [y^i \log{g(z^i)} + (1-y^i) \log{(1-g(z^i))}]，g(z^i) = \frac{1}{1 + e^{-z^i}}，z = \theta^T X^i$
代价函数 $L(\theta)$ 称为二元交叉熵损失(BCE)。

线性回归和逻辑回归的极大似然估计
离散变量预测，称之为分类；连续变量预测，称之为回归。本文总结，通过极大似然估计得到： 1）线性回归的代价函数为均...
机器学习笔记-04-理解正则化
在前面两篇文章我们讨论了，极大似然估计的原理，以及如何通过广义线性模型对线性回归和逻辑回归进行建模，从中我们看到了...
机器学习笔记-2-线性回归和似然估计
本文我们讨论以下问题：线性回归及线性模型的定义利用最小二乘法估计线性模型参数似然函数和极大似然估计，后者和最...
逻辑回归与极大似然估计
寄语：争取每天都写一些深度学习的笔记，学有所获。逻辑回归定义由于为非凸函数，存在很多局部最小值，用常规的可能难...
一元线性回归
一元线性回归昨天简单的写了一下回归模型、参数假设和参数估计的办法，今天学习参数的性质和极大似然估计。参数 β1...
复习 - 求解线性回归的思路 - 最大似然估计、最小二乘法
求解线性回归的思路：一、最大似然估计求解 1、用最大似然估计求解线性回归基于的假设所有样本的误差ε(i) (1 ...
逻辑回归常见面试总结
逻辑回归常见面试总结一、基本知识简要介绍：逻辑回归假设数据服从伯努利分布，通过极大似然函数的估计方法，运用梯度...
西瓜书笔记01：logistic回归、决策树
logistic回归 @[回归|分类|极大似然|泰勒级数|牛顿法|Hessian矩阵|sigmoid函数] 线性模...
衍化至繁：逻辑回归
逻辑回归是对线性回归的改进，用于解决分类问题；逻辑回归输出的是实例属于每个类别的似然概率，似然概率最大的类别就是...
逻辑回归与最大熵模型
本文为《统计学习方法》第6章笔记。概论逻辑回归与最大熵模型都属于对数线性模型，逻辑回归求解似然函数的极大值，得...