美文网首页
逻辑回归与极大似然估计

逻辑回归与极大似然估计

作者: 葛城巧 | 来源:发表于2018-09-04 22:53 被阅读0次

寄语:争取每天都写一些深度学习的笔记,学有所获。

逻辑回归定义

h_{\theta}(x)=g(\theta^Tx)=\frac{1}{1+e^{-\theta^Tx}}

由于h_{\theta}(x)为非凸函数,存在很多局部最小值,用常规的MSE可能难以求解全局最小值,因此使用极大似然估计来求解代价函数,从而求解梯度。

极大似然估计求梯度

设在某条件下,得到y_i=1的概率为:
P(y_i=1|x_i;\theta)=h_{\theta}(x_i)

则得到y_i=0的概率为:
P(y_i=0|x_i;\theta)=1-h_{\theta}(x_i)

合并,得:
P(y_i|x_i;\theta)=h_{\theta}(x_i)^{y_i}(1-h_{\theta}(x_i))^{1-y_i}

以上是对于单个样本的表达,对于所有的N个样本,由极大似然估计有:
L(\theta)=P(Y|X;\theta)=\prod_{i=1}^NP(y_i|x_i;\theta)=\prod_{i=1}^Nh_{\theta}(x_i)^{y_i}(1-h_{\theta}(x_i))^{1-y_i}

这种累乘的形式比较难算,一般尿性都是取对数:
l(\theta)=lnL(\theta)=\sum_{i=1}^N(y_ilnh_{\theta}(x_i)+(1-y_i)ln(1-h_{\theta}(x_i)))

由于极大似然估计是要使l(\theta)最大,而作为损失函数来说,要求损失最小,所以给上式加个负号即可,即:
J(\theta)=-l(\theta)

接着当然是求梯度:
\frac{\partial{J(\theta)}}{\partial{\theta_j}}=-\frac{\partial\sum_{i=1}^N(y_ilnh_{\theta}(x_i)+(1-y_i)ln(1-h_{\theta}(x_i)))}{\partial\theta_j}

=-\sum_{i=1}^N[y_i\frac{1}{h_{\theta}(x_i)}-(1-y_i)\frac{1}{1-h_{\theta}(x_i)}]\frac{\partial{h_{\theta}(x_i)}}{\partial{\theta_j}}

注意到:
\frac{\partial{h_{\theta}(x_i)}}{\partial{\theta_j}}=\frac{\partial{g(\theta^Tx_i)}}{\partial{\theta_j}}=\frac{\partial{g(\theta^Tx_i)}}{\partial{\theta^Tx_i}}\frac{\partial{\theta^Tx_i}}{\partial\theta_j}

由sigmoid函数的性质有:
\frac{\partial{g(\theta^Tx_i)}}{\partial{\theta^Tx_i}}=g(\theta^Tx_i)(1-g(\theta^Tx_i))

故:
\frac{\partial{h_{\theta}(x_i)}}{\partial{\theta_j}}=g(\theta^Tx_i)(1-g(\theta^Tx_i))\frac{\partial{\theta^Tx_i}}{\partial\theta_j}=g(\theta^Tx_i)(1-g(\theta^Tx_i))x_i^j

因此:
\frac{\partial{J(\theta)}}{\partial{\theta_j}}=-\sum_{i=1}^N[y_i\frac{1}{h_{\theta}(x_i)}-(1-y_i)\frac{1}{1-h_{\theta}(x_i)}]g(\theta^Tx_i)(1-g(\theta^Tx_i))x_i^j

=-\sum_{i=1}^N[y_i\frac{1}{h_{\theta}(x_i)}-(1-y_i)\frac{1}{1-h_{\theta}(x_i)}]h_{\theta}(x_i)(1-h_{\theta}(x_i))x_i^j

=-\sum_{i=1}^N[y_i(1-h_{\theta}(x_i))-(1-y_i)h_{\theta}(x_i)]x_i^j

得到:
\frac{\partial{J(\theta)}}{\partial{\theta_j}}=-\sum_{i=1}^N(y_i-h_{\theta}(x_i))x_i^j=\sum_{i=1}^N(h_{\theta}(x_i)-y_i)x_i^j

最后由梯度下降法更新权重即可:
\theta^+_j=\theta_j-\eta\frac{\partial{J(\theta)}}{\partial{\theta_j}}=\theta_j-\eta\sum_{i=1}^N(h_{\theta}(x_i)-y_i)x_i^j

其中\eta表示学习率,h_{\theta}(x_i)表示预测值,y_i表示实际值。

至此,过程结束。

相关文章

  • 逻辑回归与极大似然估计

    寄语:争取每天都写一些深度学习的笔记,学有所获。 逻辑回归定义 由于为非凸函数,存在很多局部最小值,用常规的可能难...

  • 线性回归和逻辑回归的极大似然估计

    离散变量预测,称之为分类;连续变量预测,称之为回归。 本文总结,通过极大似然估计得到: 1)线性回归的代价函数为均...

  • 逻辑回归常见面试总结

    逻辑回归常见面试总结 一、基本知识 简要介绍:逻辑回归假设数据服从伯努利分布,通过极大似然函数的估计方法,运用梯度...

  • 极大似然估计

    极大似然估计 以前多次接触过极大似然估计,但一直都不太明白到底什么原理,最近在看贝叶斯分类,对极大似然估计...

  • 极大似然估计

    极大似然估计(Maximum Likelihood Estimation,MLE),也称最大似然估计。“似然”是对...

  • 极大似然估计

    序 极大似然估计和最大后验估计是机器学习中常用的两种参数估计方法。本次记录MLE的原理和用法,为后续推导LR等目标...

  • 极大似然估计

    动机 在学习机器学习算法过程中,发现很多算法策略都采用极大似然估计, 如:线性、逻辑回归,决策树,隐马尔科夫模型。...

  • 极大似然估计

    极大似然估计是一种参数估计的方法(知模型求参数)。先验概率是 知因求果,后验概率是 知果求因,极大似然是 知果求最...

  • 极大似然估计

    现实情况中我们可能会遇到这样的一些例子,需要得到一所高校有车学生的分布情况(假定符合参数为p的伯努利分布),某地区...

  • 极大似然估计

    似然函数 似然函数(likelihood function)是一种关于统计模型中的参数的函数,既然是函数那自变量就...

网友评论

      本文标题:逻辑回归与极大似然估计

      本文链接:https://www.haomeiwen.com/subject/lsnnwftx.html