逻辑回归是假设数据服从伯努利分布(二项分布),通过极大似然函数的方法,运用梯度下降来求解参数,达到数据的二分类的目的。
是经典的二分类算法,是处理因变量是分类变量的回归问题。
1.1 对数几率回归
线性模型是回归问题,如果要处理分类问题的话,该如何?
答案在广义线性模型中,只需要找一个单调可微函数将分类任务的真实标记y与线性回归模型的预测值联系起来,
二分类,其输出标记为 ,而线性回归产生的预测值
,我们只需将实值
转换为
值就可以了。最理想的是“单位阶跃函数”,即:
![](https://img.haomeiwen.com/i14515432/65a2a9d6e033d234.png)
单位阶跃函数和对数几率函数如下所示:
![](https://img.haomeiwen.com/i14515432/8def50249b5bd228.png)
预测值大于0,则判定为正例;小于0,则判定为负例;为0,则可以任意定义。
由于单位阶跃函数不连续所以不能直接定义为线性回归的函数。所以我们希望找到能在一定程度上近似单位阶跃函数的“替代函数”,并且单调可微,所以就找到了对数几率函数。
![](https://img.haomeiwen.com/i14515432/923b350ac139a2b8.png)
对数几率函数是一种“Sigmoid函数”,将其代入线性回归有:
![](https://img.haomeiwen.com/i14515432/04b5202da9768b52.png)
将上式变换得:
![](https://img.haomeiwen.com/i14515432/2610254b7b9b7936.png)
将视为作为正例的相对可能性,则是其反例的可能性,两者的比值称为“几率”,反映了作为正例的相对可能性,对几率取对数则得到“对数几率”。
1.2极大似然求解
如何求解和
呢?我们可以将
视为后验概率估计
,
则上式变换为 。
得:
于是可以通过极大似然法来估计和
![](https://img.haomeiwen.com/i14515432/278c324a10b1af27.png)
![](https://img.haomeiwen.com/i14515432/e461c8345d528823.png)
![](https://img.haomeiwen.com/i14515432/102e324beba8b137.png)
则目标函数可写为:
![](https://img.haomeiwen.com/i14515432/a0e9b9b4a60429b2.png)
对目标函数求解得到最优参数。
网友评论