1.线性回归发展而来:
- 线性回归研究的是连续因变量与自变量之间的关系
- 但有些问题是分类因变量,研究分类因变量与一组自变量的关系,例如两分类0与1,那么人们想知道的更多是出现1的概率估计
-
那么我们就可以通过线性回归转变思想:
把预测的因变量转变位概率 -
但是会遇到的问题:
- 发现因变量P与自变量之间是不存在线性关系,多数时候呈S曲线
- 超过一个阈值的时候,概率迅速增加
- 达到一定水平的时候,概率的变化就会减弱
- 不能保证在自变量组合下,因变量的估计值仍然在0-1之间
- 是否有一个函数能将曲线变得直线化,然后再进行直线回归放程的拟合呢?
- Cox引入了logit变换
- 右侧依然是线性的形式
- 大量实践证明,logit(p)往往和自变量呈线性关系
- 带来的新问题:
- 由于因变量为二分类,所以误差项服从二项分布,而不是正态分布
- 因此,常用的最小二乘法不适用,可以选用梯度下降法
- 模型的适用条件
- 独立性:一般从专业背景上加以识别
- 混合效应的logistics模型(若不独立)
- 多水平模型(若不独立)
- 线性假设:自变量和logit(p)呈线性关系
- 可使用模型诊断工具加以考察,如残差分析
- 观测时间问题
- 当对象的观察时间不同,或个体发病时间区别明显时不适宜采用
- Posisson回归/生存分析更适合
- 样本量要求
- 经验方法1: 首先选择因变量中较少的哪一类,然后将该数值除以10,这就是模型中可以分析的自变量数
- 经验方法2:变量数*30
达不到以上样本要求并非意味着无法拟合,只是说可能检验效能不够充足,无法检验出实际存在的差异- 即使检验结果为该参数有统计学意义,但假如轻微干扰,或者增删几条记录时,估计值和检验结果就会发生剧烈的抖动
网友评论