美文网首页StatQuest
学习:StatQuest-逻辑回归

学习:StatQuest-逻辑回归

作者: 小潤澤 | 来源:发表于2020-01-22 17:49 被阅读0次

    前言

    逻辑回归的底层是由线性回归所支撑的,它所用于将线性模型转换为概率模型进行分类:


    图1
    图2
    图3

    图2 是计算逻辑回归事件概率
    图3计算odds和事件概率

    逻辑回归

    逻辑回归强调的是一种分类


    image.png

    由这个图上,我们可以看到小鼠被严格的分为两类,Obese和Not Obese,这样分类是否太严格了,我们完全可以设立一个阈值,根据已有的特征来进行分类:


    image.png
    比方说我建立一个线性模型,然后转换为概率模型;
    image.png

    假设说我们阈值设为0.5,即P(Y) > 0.5 分类为
    Obese;否则为Not Obese
    以此来达到二分类的目的

    逻辑回归系数

    逻辑回归是广义线性模型的一个分支


    image.png

    我们先看看底层的东西:线性模型


    image.png
    线性模型的横坐标是weight,纵坐标是size,这两者成线性关系,
    而逻辑回归:
    image.png

    横坐标为weight ,纵坐标用于判断是否Obese
    纵坐标这样计算:


    image.png
    P是利用前言中图2 的公式所计算
    假设说:
    image.png
    我计算的P = 0.731 ,它所对应的纵坐标如上图所示

    非线性模型情况

    接下来我们考虑下的非线性模型的逻辑回归:


    image.png

    这是个分组统计的结果,考虑某基因突变是否会导致Obese


    image.png
    我们利用设计矩阵进行模型整合,先看一下有无突变基因对小鼠size的分布影响
    我们利用逻辑回归的思想,计算odds的log值,并依次填充在纵坐标轴上
    image.png

    我们也可以引入设计矩阵把两个模型整合


    image.png
    比方说这样利用odds值就可以比较突变与肥胖的关系了
    image.png

    逻辑回归显著性检验

    举个例子,假设是个二分类,分为A,B两类.其中A类有5个元素;B类有4个元素,
    那么回顾下线性模型的R^2 ,我们要计算两部分:fit部分和mean部分,逻辑回归也一样
    那么基于线性模型来看分类:


    image.png

    我们利用前言中图2的式子计算概率P,然后利用下面的式子计算log(odds):


    image.png
    再然后利用log(odds)转换成逻辑回归的纵坐标值:
    image.png
    ps:其实绕来绕去计算出来的结果就是每个数据点的概率值

    最后计算似然和:


    image.png

    那么SS(fit)就算完了,在逻辑回归里面称为LL(fit)
    再回顾下线性模型的R^2 我们除了要计算fit部分,还要计算mean部分(当然在逻辑回归里面称为overall probability,下文中我都简称为mean),下面我们就来计算mean部分,这是个二分类,它的odds这么算:
    log(odds) = log(5/4) = 0.22


    image.png

    然后计算概率


    image.png
    结果为:
    image.png
    好吧,9个数据点所计算出来的概率值为0.56,也就是说随机取一个样,为A类的概率为0.56,为B类的概率为0.44
    我们计算下这9个数据点的似然值和的log值(为了方便计算,我们取概率为0.55)
    image.png

    这样的话SS(mean)也就计算出来了,在逻辑回归里面我们称为LL(mean)
    R^2 为:


    image.png
    本例中值为0.39

    p_value:
    借助于Chi - squared分布,利用:


    image.png

    来计算相应的值:


    image.png
    这样就得到p_value了

    相关文章

      网友评论

        本文标题:学习:StatQuest-逻辑回归

        本文链接:https://www.haomeiwen.com/subject/pwnpactx.html