美文网首页
逻辑回归损失函数不使用MSE的原因

逻辑回归损失函数不使用MSE的原因

作者: CapsulE_07 | 来源:发表于2020-03-22 22:07 被阅读0次

原因总结:

  1. MSE会有梯度消失现象
  2. MSE的导数非凸函数,求解最优解困难

公式证明

1. 梯度消失公式证明

f(x)=\theta x+b,记为 s
h(s)=\frac{1}{1+e^{-s}} \tag{1.1}
h'(s) = h(s) (1- h(s))\tag{1.2}
J(\theta) = \sum_{i=1}^{m}(y_i - h_i(s_i) )^2 \tag{1.3}
\begin{equation}\begin{split} J'(\theta) &= \sum_{i=1}^{m}(y_i - h_i(s_i) )^2 \\ &=\sum_{i=1}^{m}2(y_i - h_i(s_i) )*(-h'(s))*(\frac {\partial f(\theta)} {\partial \theta}) \\ &= -2 \sum_{i=1}^{m}(y_i - h_i(s_i) )*h(s_i) *(1- h(s_i)))*x_i \\ \end{split}\end{equation} \tag{1.4}
只关注其中单项的公式,并简化可得:
L'(\theta) = (y-h)h(1-h)x \tag{1.5}
可见, 当h趋近于0时或者趋近于1时,该Loss的导数都会趋近为0,从而造成梯度消失现象。

2. 非凸函数公式证明

关注L'(\theta) 其二阶导数,可以得出其二阶导数矩阵即Hessian矩阵不是正定矩阵。 该导数是非凸函数,不是凸函数,难以优化。
\begin{equation}\begin{split} L''(\theta) &= \frac {\partial (y-h)(h-h^2)x} {\partial \theta} \\ &= x \frac {\partial (yh- yh^2 -h^2 + h^3)} {\partial \theta} \\ &= x (y- 2yh -2h +3h^2) \frac{\partial h} {\partial \theta} \\ &= x^2 (y- 2yh -2h +3h^2)h(1-h) \\ \end{split}\end{equation} \tag{1.6}
h(1-h)(0,1)内都大于0, 假设y=0时,L''(\theta) 则由 3h^2 - 2h决定。
因为3h^2 - 2h 的根为0, \frac {2}{3},即其在[0,1]范围内有正有负。 从而得出L''(\theta) 有正有负,即为非凸函数。

附录: Hessian矩阵H性质

image.png

相关文章

  • (Ridge, Lasso) Regression

    岭回归 岭回归 的损失函数 MSE+L2 岭回归还是多元线性回归 y = wTx 只不过损失函数MSE添加了损失...

  • 逻辑回归损失函数不使用MSE的原因

    原因总结: MSE会有梯度消失现象 MSE的导数非凸函数,求解最优解困难 公式证明 1. 梯度消失公式证明 令 ,...

  • TORCH02-03:Torch的损失函数与逻辑回归实现

    本主题主要梳理损失函数,并同时使用损失函数实现逻辑回归。本主题内容结构:  1. 逻辑回归模型;  2. 逻辑回归...

  • 逻辑回归

    逻辑回归的损失函数如何得来的呢?两图搞懂逻辑回归的损失函数来源。

  • 各个模型的损失函数

    log对数损失函数(逻辑回归) 有些人可能觉得逻辑回归的损失函数就是平方损失,其实并不是。平方损失函数可以通过线性...

  • 使用分位数回归预测目标的取值范围

    问题:如何做到对目标值的区间范围的预测 使用神经网络做回归任务,我们使用MSE、MAE作为损失函数,最终得到的输出...

  • 机器学习常见问题

    1.损失函数 机器学习中损失函数:线性回归使用的就是最小平方和损失函数、Logistic回归使用的交叉熵损失函数....

  • 损失函数的选择

    回归问题常用:均值平方差损失函数(MSE);交叉熵问题常用交叉熵损失函数(CE)。 那为啥? 1.从原理上来讲,C...

  • 机器学习随笔

    1 模型的函数表达式,如逻辑回归函数 2 定义损失函数,最小二乘损失,0/1损失,交叉熵。 3 目标函数,损失函数...

  • Huber loss

    一种用于回归模型的损失函数,和mse相比,对outliers更不敏感。当残差较小时,损失函数是残差的二次方;当残差...

网友评论

      本文标题:逻辑回归损失函数不使用MSE的原因

      本文链接:https://www.haomeiwen.com/subject/irqbyhtx.html