逻辑回归实践

作者: 十曰立 | 来源:发表于2017-10-09 20:16 被阅读75次

逻辑回归实践
机器学习理论系列3——逻辑回归
机器学习day7-逻辑回归问题
ML03-逻辑回归（下部分）
ML02-逻辑回归（上部分）
逻辑回归模型
Task 01|基于逻辑回归的分类预测
数据科学家45题自测：回归知识部分（有答案和解析）
11. 分类算法-逻辑回归
机器学习100天-Day4-6逻辑回归

参考文章1，参考文章2，参考文章3
Logistic Regression Classifier逻辑回归主要思想就是用最大似然概率方法构建出方程，为了最大化方程，利用牛顿梯度上升求解方程参数。

优点：计算代价不高，易于理解和实现。
缺点：容易欠拟合，分类精度可能不高。
使用数据类型：数值型和标称型数据。

0x01. 引入似然函数

逻辑回归跟最大似然关系很大，那什么是最大似然呢？
最大似然就是：最大可能嘛~就是根据已知的数据来推断最大可能的参数，比如假设我们已知高中生的身高符合高斯分布，因此我们随机抽样100个学生的身高，由于是随机抽的，因此可以认为这些学生之间是没有关系的，是独立的，因此我同时抽到这100个学生的概率就是这100个样本的联合概率了：

参数θ相对于样本集X的似然函数这个概率反映了，在概率密度函数的参数是θ时，得到X这组样本的概率。因为这里X是已知的，也就是说我抽取到的这100个人的身高可以测出来，也就是已知的了。而θ是未知了，则上面这个公式只有θ是未知数，所以它是θ的函数。这个函数放映的是在不同的参数θ取值下，取得当前这个样本集的可能性，因此称为参数θ相对于样本集X的似然函数（likehood function）。记为L(θ)。

所以，我们就只需要找到一个参数θ，其对应的似然函数L(θ)最大，也就是说抽到这100个男生（的身高）概率最大。这个叫做θ的最大似然估计量，记为：

有时，可以看到L(θ)是连乘的，所以为了便于分析，还可以定义对数似然函数，将其变成连加的：

然后求导并取0，求出参数就是最佳的参数值。

0x02. 迁移之逻辑回归&最大似然

我们从里面抓3个球，2个黑球，1个白球。这时候，有人就直接得出了黑球67%，白球占比33%。这个时候，其实这个人使用了最大似然概率的思想，通俗来讲，当黑球是67%的占比的时候，我们抓3个球，出现2黑1白的概率最大。我们直接用公式来说明。
假设黑球占比为P，白球为1-P。于是我们要求解MAX(PP(1-P))，显而易见P=67%时是最有可能得到目前的这个结果的（求解方法：对方程求导，使导数为0的P值即为最优解）

对比逻辑回归是不是就是一个二分类的问题，是不是跟上面的黑白球分类问题很像？

假设我们有n个独立的训练样本{(x1, y1) ,(x2, y2),…, (xn, yn)}，y={0, 1}。那每一个观察到的样本(xi, yi)出现的概率是：

不管y是0还是1，上面得到的数，都是(x, y)出现的概率。那我们的整个样本集，也就是n个独立的样本出现的似然函数为（因为每个样本都是独立的，所以n个样本出现的概率就是他们各自出现的概率相乘）：

这里我们稍微变换下L(θ)：取自然对数，然后化简，得到：
就知道了。注：有xi的时候，表示它是第i个样本，下面没有做区分了，相信你的眼睛是雪亮的），得到：

其中第三步到第四步使用了下面替换。

这时候为求最大值，对L(θ)对θ求导，得到：

然后我们令该导数为0，即可求出最优解。但是这个方程是无法解析求解（这里就不证明了）。最后问题变成了，求解参数使方程L最大化，求解参数的方法梯度上升法（原理这里不解释了，看详细的代码的计算方式应该更容易理解些）。根据这个转换公式

我们代入参数和特征，求P，也就是发生1的概率。

上面这个也就是常提及的sigmoid函数，俗称激活函数，最后用于分类（若P(y=1|x;Θ )大于0.5，则判定为1）。
这时候，用L(θ)对θ求导，得到：

然后我们令该导数为0，你会很失望的发现，它无法解析求解。不信你就去尝试一下。所以没办法了，只能借助高大上的迭代来搞定了。这里选用了经典的梯度下降算法。

0x03. 优化求解 (link)

梯度下降
Gradient descent 又叫 steepest descent，是利用一阶的梯度信息找到函数局部最优解的一种方法，也是机器学习里面最简单最常用的一种优化方法。它的思想很简单，和我开篇说的那样，要找最小值，我只需要每一步都往下走（也就是每一步都可以让代价函数小一点），然后不断的走，那肯定能走到最小值的地方，例如下图所示：

但，我同时也需要更快的到达最小值啊，怎么办呢？我们需要每一步都找下坡最快的地方，也就是每一步我走某个方向，都比走其他方法，要离最小值更近。而这个下坡最快的方向，就是梯度的负方向了。
对logistic Regression来说，梯度下降算法新鲜出炉，如下：

其中，参数α叫学习率，就是每一步走多远，这个参数蛮关键的。如果设置的太多，那么很容易就在最优值附加徘徊，因为你步伐太大了。例如要从广州到上海，但是你的一步的距离就是广州到北京那么远，没有半步的说法，自己能迈那么大步，是幸运呢？还是不幸呢？事物总有两面性嘛，它带来的好处是能很快的从远离最优值的地方回到最优值附近，只是在最优值附近的时候，它有心无力了。但如果设置的太小，那收敛速度就太慢了，向蜗牛一样，虽然会落在最优的点，但是这速度如果是猴年马月，我们也没这耐心啊。所以有的改进就是在这个学习率这个地方下刀子的。我开始迭代是，学习率大，慢慢的接近最优值的时候，我的学习率变小就可以了。所谓采两者之精华啊！

梯度下降：

初始化回归系数为1
重复下面步骤直到收敛{
        计算整个数据集的梯度
        使用alpha x gradient来更新回归系数
}
返回回归系数值

随机梯度下降：

初始化回归系数为1
重复下面步骤直到收敛{
        对数据集中每个样本
        计算该样本的梯度
        使用alpha xgradient来更新回归系数
 }
返回回归系数值

改进的随机梯度下降:

初始化回归系数为1
重复下面步骤直到收敛{
       对随机遍历的数据集中的每个样本
       随着迭代的逐渐进行，减小alpha的值
       计算该样本的梯度
       使用alpha x gradient来更新回归系数
    }
返回回归系数值

0x04. 另一种解释 (link)

其实为某种形式的回归建立数学模型并不是一件容易的事情，经过先烈的曲折探索，得出了一个神奇的公式，称为logit公式：

诶？看似简洁，然而有什么用呢？里面既没有X也没有y呀。。。

先等等，还记得深度学习中经常加在神经网络的顶层来求后验概率P(y=j|X)的softmax函数吗？对就是下面这个熟悉的函数：

对于我们的二分类问题来说，有P(y=0|X)+P(y=1|X)=1，那么如果我们令logit公式中的Q=P(y=0|X)呢？然后P(y=0|X)用softmax函数表示呢？是不是突然被下面推导的过程和结果惊呆了！！！：

而xTΔw的值不就是反映感知机模型的输出嘛！（即xTΔw>0则预测类别为正，xTΔw<0则预测类别为负）

我们再把xTΔw整理的好看一点，变成更正常的形式：w·x+b。然后就可以得到下面的结论！！！：

这就是我们前面苦苦寻找的逻辑回归模型！看，随机变量X与随机变量Y的关系竟然直接纳入了一个模型下面！也就是说后验概率直接用随机变量X表示了出来！而不是像贝叶斯定理一样间接表示后验概率。

有了上面直接表示的后验概率，于是建立似然函数，通过极大似然估计来确定模型的参数。因此设：

似然函数就表示为

对数似然函数即：

也就是本文的“浅入”环节的损失函数啦，原来是正儿八经的一步步推出来的！剩下的就交给梯度下降法优化出模型参数吧！

from numpy import *
filename='...\\testSet.txt' #文件目录
def loadDataSet():   #读取数据（这里只有两个特征）
    dataMat = []
    labelMat = []
    fr = open(filename)
    for line in fr.readlines():
        lineArr = line.strip().split()
        dataMat.append([1.0, float(lineArr[0]), float(lineArr[1])])   #前面的1，表示方程的常量。比如两个特征X1,X2，共需要三个参数，W1+W2*X1+W3*X2
        labelMat.append(int(lineArr[2]))
    return dataMat,labelMat

def sigmoid(inX):  #sigmoid函数
    return 1.0/(1+exp(-inX))

def gradAscent(dataMat, labelMat): #梯度上升求最优参数
    dataMatrix=mat(dataMat) #将读取的数据转换为矩阵
    classLabels=mat(labelMat).transpose() #将读取的数据转换为矩阵
    m,n = shape(dataMatrix)
    alpha = 0.001  #设置梯度的阀值，该值越大梯度上升幅度越大
    maxCycles = 500 #设置迭代的次数，一般看实际数据进行设定，有些可能200次就够了
    weights = ones((n,1)) #设置初始的参数，并都赋默认值为1。注意这里权重以矩阵形式表示三个参数。
    for k in range(maxCycles):
        h = sigmoid(dataMatrix*weights)
        error = (classLabels - h)     #求导后差值
        weights = weights + alpha * dataMatrix.transpose()* error #迭代更新权重
    return weights

def stocGradAscent0(dataMat, labelMat):  #随机梯度上升，当数据量比较大时，每次迭代都选择全量数据进行计算，计算量会非常大。所以采用每次迭代中一次只选择其中的一行数据进行更新权重。
    dataMatrix=mat(dataMat)
    classLabels=labelMat
    m,n=shape(dataMatrix)
    alpha=0.01
    maxCycles = 500
    weights=ones((n,1))
    for k in range(maxCycles):
        for i in range(m): #遍历计算每一行
            h = sigmoid(sum(dataMatrix[i] * weights))
            error = classLabels[i] - h
            weights = weights + alpha * error * dataMatrix[i].transpose()
    return weights

def stocGradAscent1(dataMat, labelMat): #改进版随机梯度上升，在每次迭代中随机选择样本来更新权重，并且随迭代次数增加，权重变化越小。
    dataMatrix=mat(dataMat)
    classLabels=labelMat
    m,n=shape(dataMatrix)
    weights=ones((n,1))
    maxCycles=500
    for j in range(maxCycles): #迭代
        dataIndex=[i for i in range(m)]
        for i in range(m): #随机遍历每一行
            alpha=4/(1+j+i)+0.0001  #随迭代次数增加，权重变化越小。
            randIndex=int(random.uniform(0,len(dataIndex)))  #随机抽样
            h=sigmoid(sum(dataMatrix[randIndex]*weights))
            error=classLabels[randIndex]-h
            weights=weights+alpha*error*dataMatrix[randIndex].transpose()
            del(dataIndex[randIndex]) #去除已经抽取的样本
    return weights

def plotBestFit(weights):  #画出最终分类的图
    import matplotlib.pyplot as plt
    dataMat,labelMat=loadDataSet()
    dataArr = array(dataMat)
    n = shape(dataArr)[0]
    xcord1 = []; ycord1 = []
    xcord2 = []; ycord2 = []
    for i in range(n):
        if int(labelMat[i])== 1:
            xcord1.append(dataArr[i,1])
            ycord1.append(dataArr[i,2])
        else:
            xcord2.append(dataArr[i,1])
            ycord2.append(dataArr[i,2])
    fig = plt.figure()
    ax = fig.add_subplot(111)
    ax.scatter(xcord1, ycord1, s=30, c='red', marker='s')
    ax.scatter(xcord2, ycord2, s=30, c='green')
    x = arange(-3.0, 3.0, 0.1)
    y = (-weights[0]-weights[1]*x)/weights[2]
    ax.plot(x, y)
    plt.xlabel('X1')
    plt.ylabel('X2')
    plt.show()

def main():
    dataMat, labelMat = loadDataSet()
    weights=gradAscent(dataMat, labelMat).getA()
    plotBestFit(weights)

if __name__=='__main__':
    main()

逻辑回归实践
参考文章1，参考文章2，参考文章3Logistic Regression Classifier逻辑回归主要思想就是...
机器学习理论系列3——逻辑回归
之前在机器学习实践系列3——二项逻辑回归中，描述了逻辑回归算法的基本概念和原理，并用Python结合实际案例讲解了...
机器学习day7-逻辑回归问题
逻辑回归逻辑回归，是最常见最基础的模型。逻辑回归与线性回归逻辑回归处理的是分类问题，线性回归处理回归问题。两...
ML03-逻辑回归（下部分）
本文主题-逻辑回归（下部分）：逻辑回归的应用背景逻辑回归的数学基础逻辑回归的模型与推导逻辑回归算法推导梯度下降算法...
ML02-逻辑回归（上部分）
本文主题-逻辑回归（上部分）：逻辑回归的应用背景逻辑回归的数学基础逻辑回归的模型与推导逻辑回归算法推导梯度下降算法...
逻辑回归模型
1.逻辑回归介绍2.机器学习中的逻辑回归3.逻辑回归面试总结4.逻辑回归算法原理推导5.逻辑回归(logistic...
Task 01|基于逻辑回归的分类预测
知识背景关于逻辑回归的几个问题逻辑回归相比线性回归，有何异同？逻辑回归和线性回归最大的不同点是逻辑回归解决的...
数据科学家45题自测：回归知识部分（有答案和解析）
摘要：本文是关于回归知识的45道小问题，包括了理论和实践知识，快来试一试~ 回归分析远远不止线性或逻辑回归，它包含...
11. 分类算法-逻辑回归
逻辑回归逻辑回归是解决二分类问题的利器逻辑回归公式 sklearn逻辑回归的API sklearn.linea...
机器学习100天-Day4-6逻辑回归
逻辑回归（Logistic Regression）什么是逻辑回归逻辑回归被用于对不同问题进行分类。在这里，逻辑...