1.简介
首先逻辑回归(Logistic Regression)是一个分类算法,它可以处理二元分类以及多元分类,是机器学习中一个非常非常常见的模型,在实际生产环境中也常常被使用,是一种经典的分类模型(不是回归模型)
2.模型构建
2.1 线性回归
为了更容易理解LR,我先说一下线性回归吧,线性回归的主要思想就是通过历史数据拟合出一条直线,用这条直线对新的数据进行预测。
对于一元的自变量:
模型参数为w,b
对于每个样本误差为:
最小误差平方和(线性回归是连续的所以可以用模型误差平方和定义损失函数):
这里取最小误差平方和是因为误差有正有负,防止正负抵消影响误差判断
对于多元的自变量:
自变量可以看作是一个向量,则方程可记为(i为样本特征的数量,j为样本的数量):
因为这里的b最终会是一个常数,需要注意的是这里的w和x的维度是相同的,故上述公式可变形为:
这时候整个公式就可以简化为
我们只要研究参数w就可以了,我们最终的学习目标为使平方差和最小时w的值:
根据函数的特性,要得到最小平方差和,对w求导,导数为0的地方就是函数的最小值
令其等于0,得:
然后利用最小二乘法(最小平方和)得到w
注:这里有个问题,如果不是可逆矩阵,我们可以给他加个常数矩阵使他可逆
λ的值可以通过测试得到
2.2 逻辑回归(二元)
逻辑回归有个logit函数:
下面先研究一下这个函数原理::
对于二分类问题,最终因变量y只有两种情况,且两种情况概率加起来等于1
eg:一个事件发生概率为:p(y=1|x),不发生概率为:p(y=0|x)
假定p(y=1|x)依赖于线性函数发f(x) = wx,但是wx值域在(-∞,+∞)
而两个概率的比值却是(0,+∞),我们对wx进行指数变换,那么就可以得到:
则可以得到:
现在我们把公式(1)两边同时进行取log运算,结果就是logit函数
而公式(2)就是我们下面要引出的sigmoid函数,也就是LR的模型
2.3 sigmoid函数
LR算法也可以看作是把线性函数的结果映射到了sigmod函数中
sigmoid函数公式及模型图:
则对于二分类问题类别概率为:
3.损失函数
从前文可以看到逻辑回归并不是连续的,所以不能用模型的误差平方和定义损失函数,我们可以用极大似然推导逻辑回归的损失函数
3.1 极大似然估计
这里我先解释一下什么是极大似然估计:eg.一个袋子中有20个球,只有黑白两色,有放回的抽取十次,取出8个黑球和2个白球,计算袋子里有白球黑球各几个?
我们假设每次取出黑球的概率为p,那么白球概率就为(1-p)
则:
我们可以认为是按照最大概率来抽取的样本,对p进行求导,让导数为0.即可得到黑球对应的概率。极大似然估计就是这种思想
3.2 二元逻辑回归损失函数
根据极大似然估计思想,则假设二元逻辑回归的输出只有0和1两种,则:
为了方便求解,我们用负对数似然函数最小化:
损失函数的本质是如果预测对了可以不惩罚,如果错了,就加大惩罚,也就是让损失函数变得较大,而-log函数在[0,1]之间正好符合这一点。另外,前面线性回归我们损失函数是用误差平方和,而LR是广义的线性回归,模型是sigmoid函数,如果也用误差平方和的话,对于sigmoid求导无法保证是凸函数,在优化过程中得到的解可能是局部的最优解不是全局的,最后,取对数之后,求导更方便
3.3 损失函数优化
求导之前我们先对sigmoid函数变形一下:
最终的结果就是我们所需要的梯度,一般我们采用梯度下降法找到最优解w,则w的每次迭代公式为:
α为梯度下降法的步长
我们在进行计算时候,会先设置个初始的w,然后当函数值变化较小时,停止
4.总结
逻辑回归尤其是二元逻辑回归是非常常见的模型,训练速度很快,虽然使用起来没有支持向量机(SVM)那么占主流,但是解决普通的分类问题是足够了,训练速度也比起SVM要快不少的
网友评论