美文网首页
Logistic模型的基本概念

Logistic模型的基本概念

作者: 番茄酱的汪 | 来源:发表于2020-03-28 22:30 被阅读0次

    1.线性回归发展而来:

    • 线性回归研究的是连续因变量与自变量之间的关系
    • 但有些问题是分类因变量,研究分类因变量与一组自变量的关系,例如两分类0与1,那么人们想知道的更多是出现1的概率估计
    1. 那么我们就可以通过线性回归转变思想:
      Y = \alpha + \beta_{1}x_{1}+...+\beta_{m}x_{m}
      P = \alpha + \beta_{1}x_{1}+...+\beta_{m}x_{m}
      把预测的因变量转变位概率

    2. 但是会遇到的问题:

    • 发现因变量P与自变量之间是不存在线性关系,多数时候呈S曲线
      • 超过一个阈值的时候,概率迅速增加
      • 达到一定水平的时候,概率的变化就会减弱
    • 不能保证在自变量组合下,因变量的估计值仍然在0-1之间
    1. 是否有一个函数能将曲线变得直线化,然后再进行直线回归放程的拟合呢?
    • Cox引入了logit变换
    • logit(p)=ln \frac{p}{1-p}
    • logit(p)= \alpha + \beta_{1}x_{1}+...+\beta_{m}x_{m}
    • 右侧依然是线性的形式
    • 大量实践证明,logit(p)往往和自变量呈线性关系
    • 带来的新问题:
      • 由于因变量为二分类,所以误差项服从二项分布,而不是正态分布
      • 因此,常用的最小二乘法不适用,可以选用梯度下降法
    1. 模型的适用条件
    • 独立性:一般从专业背景上加以识别
      • 混合效应的logistics模型(若不独立)
      • 多水平模型(若不独立)
    • 线性假设:自变量和logit(p)呈线性关系
      • 可使用模型诊断工具加以考察,如残差分析
    • 观测时间问题
    • 当对象的观察时间不同,或个体发病时间区别明显时不适宜采用
      • Posisson回归/生存分析更适合
    1. 样本量要求
    • 经验方法1: 首先选择因变量中较少的哪一类,然后将该数值除以10,这就是模型中可以分析的自变量数
    • 经验方法2:变量数*30
      达不到以上样本要求并非意味着无法拟合,只是说可能检验效能不够充足,无法检验出实际存在的差异
      • 即使检验结果为该参数有统计学意义,但假如轻微干扰,或者增删几条记录时,估计值和检验结果就会发生剧烈的抖动

    相关文章

      网友评论

          本文标题:Logistic模型的基本概念

          本文链接:https://www.haomeiwen.com/subject/cirsuhtx.html