前言
逻辑回归的底层是由线性回归所支撑的,它所用于将线性模型转换为概率模型进行分类:
图1
图2
图3
图2 是计算逻辑回归事件概率
图3计算odds和事件概率
逻辑回归
逻辑回归强调的是一种分类
image.png
由这个图上,我们可以看到小鼠被严格的分为两类,Obese和Not Obese,这样分类是否太严格了,我们完全可以设立一个阈值,根据已有的特征来进行分类:
image.png
比方说我建立一个线性模型,然后转换为概率模型;
image.png
假设说我们阈值设为0.5,即P(Y) > 0.5 分类为
Obese;否则为Not Obese
以此来达到二分类的目的
逻辑回归系数
逻辑回归是广义线性模型的一个分支
image.png
我们先看看底层的东西:线性模型
image.png
线性模型的横坐标是weight,纵坐标是size,这两者成线性关系,
而逻辑回归:
image.png
横坐标为weight ,纵坐标用于判断是否Obese
纵坐标这样计算:
image.png
P是利用前言中图2 的公式所计算
假设说:
image.png
我计算的P = 0.731 ,它所对应的纵坐标如上图所示
非线性模型情况
接下来我们考虑下的非线性模型的逻辑回归:
image.png
这是个分组统计的结果,考虑某基因突变是否会导致Obese
image.png
我们利用设计矩阵进行模型整合,先看一下有无突变基因对小鼠size的分布影响
我们利用逻辑回归的思想,计算odds的log值,并依次填充在纵坐标轴上
image.png
我们也可以引入设计矩阵把两个模型整合
image.png
比方说这样利用odds值就可以比较突变与肥胖的关系了
image.png
逻辑回归显著性检验
举个例子,假设是个二分类,分为A,B两类.其中A类有5个元素;B类有4个元素,
那么回顾下线性模型的R^2 ,我们要计算两部分:fit部分和mean部分,逻辑回归也一样
那么基于线性模型来看分类:
image.png
我们利用前言中图2的式子计算概率P,然后利用下面的式子计算log(odds):
image.png
再然后利用log(odds)转换成逻辑回归的纵坐标值:
image.png
ps:其实绕来绕去计算出来的结果就是每个数据点的概率值
最后计算似然和:
image.png
那么SS(fit)就算完了,在逻辑回归里面称为LL(fit)
再回顾下线性模型的R^2 我们除了要计算fit部分,还要计算mean部分(当然在逻辑回归里面称为overall probability,下文中我都简称为mean),下面我们就来计算mean部分,这是个二分类,它的odds这么算:
log(odds) = log(5/4) = 0.22
image.png
然后计算概率
image.png
结果为:
image.png
好吧,9个数据点所计算出来的概率值为0.56,也就是说随机取一个样,为A类的概率为0.56,为B类的概率为0.44
我们计算下这9个数据点的似然值和的log值(为了方便计算,我们取概率为0.55)
image.png
这样的话SS(mean)也就计算出来了,在逻辑回归里面我们称为LL(mean)
R^2 为:
image.png
本例中值为0.39
p_value:
借助于Chi - squared分布,利用:
image.png
来计算相应的值:
image.png
这样就得到p_value了
网友评论