美文网首页
Logistic模型的基本概念

Logistic模型的基本概念

作者: 番茄酱的汪 | 来源:发表于2020-03-28 22:30 被阅读0次

1.线性回归发展而来:

  • 线性回归研究的是连续因变量与自变量之间的关系
  • 但有些问题是分类因变量,研究分类因变量与一组自变量的关系,例如两分类0与1,那么人们想知道的更多是出现1的概率估计
  1. 那么我们就可以通过线性回归转变思想:
    Y = \alpha + \beta_{1}x_{1}+...+\beta_{m}x_{m}
    P = \alpha + \beta_{1}x_{1}+...+\beta_{m}x_{m}
    把预测的因变量转变位概率

  2. 但是会遇到的问题:

  • 发现因变量P与自变量之间是不存在线性关系,多数时候呈S曲线
    • 超过一个阈值的时候,概率迅速增加
    • 达到一定水平的时候,概率的变化就会减弱
  • 不能保证在自变量组合下,因变量的估计值仍然在0-1之间
  1. 是否有一个函数能将曲线变得直线化,然后再进行直线回归放程的拟合呢?
  • Cox引入了logit变换
  • logit(p)=ln \frac{p}{1-p}
  • logit(p)= \alpha + \beta_{1}x_{1}+...+\beta_{m}x_{m}
  • 右侧依然是线性的形式
  • 大量实践证明,logit(p)往往和自变量呈线性关系
  • 带来的新问题:
    • 由于因变量为二分类,所以误差项服从二项分布,而不是正态分布
    • 因此,常用的最小二乘法不适用,可以选用梯度下降法
  1. 模型的适用条件
  • 独立性:一般从专业背景上加以识别
    • 混合效应的logistics模型(若不独立)
    • 多水平模型(若不独立)
  • 线性假设:自变量和logit(p)呈线性关系
    • 可使用模型诊断工具加以考察,如残差分析
  • 观测时间问题
  • 当对象的观察时间不同,或个体发病时间区别明显时不适宜采用
    • Posisson回归/生存分析更适合
  1. 样本量要求
  • 经验方法1: 首先选择因变量中较少的哪一类,然后将该数值除以10,这就是模型中可以分析的自变量数
  • 经验方法2:变量数*30
    达不到以上样本要求并非意味着无法拟合,只是说可能检验效能不够充足,无法检验出实际存在的差异
    • 即使检验结果为该参数有统计学意义,但假如轻微干扰,或者增删几条记录时,估计值和检验结果就会发生剧烈的抖动

相关文章

网友评论

      本文标题:Logistic模型的基本概念

      本文链接:https://www.haomeiwen.com/subject/cirsuhtx.html