1.logistic 回归简介
是针对变量为分类变量二进行回归分析的一种统计方法,属于概率行非线性回归。
在线性回归中,因变量是连续变量,那么线性回归能根据因变量和自变量之间存在的线性关系来构建回归方程,
但是,一旦因变量是分类变量,那么因变量与自变量之间就不存在这种线性关系了。这个时候,就要通过某种转换来解决这个问题了,这个变换陈伟对数变换
对数变换的目的就是将非线性问题转换为线性问题,这样就能够使用线性回归相关理论和方法来解决非线性回归的问题
1.1分类变量(二分类,多分类)
二分类:俩个分类状态,例如用户石佛普购买商品,用户是否流失(银边领只有俩个值:1和0;对应是和否,或者发生或没发生
多分类:就具有多个类别的状态,例如客户的价值分类可分为高价客户,中价客户,低价客户
在模型预测中,不是直接就能得到分类至1和0,而是可以发生的可能行大小来衡量,换句话说就是得到一个介于0和1之间的概率值p来进行预测因变量出现某个状态的可能性
1.2因变量和概率p之间的关系
0.5<=p<=1 则因变量对应的是分类1 (是\发生)
0<=p<0.5 则因变量对应的是分类0 (不是\未发生)
1.3回归方程如下:
log(p)=b0+b1x1+b2x2+b3x3+.......+bnxn
logistic 因变量是分类变量
自变量和因变量呈非线性关系
因变量呈0/1分布
预测结果是介于0和1 之间的概率值
--------------------------------------------------
2.应用行业:
营销活动--用户参与营销活动相应预测以及相应潜在影响因素识别
消费品行业--用户购买改了和预测以及购买潜在影响因素识别
金融行业--用户的信用度预测以及信用潜在影响因素识别
电信行业--用户流失概率预测以及流失潜在影响因素识别
人力资源--员工流失概率预测一i及流失潜在影响因素识别
2.1
优点,将非线性转换成线性回归问题
缺点:回归系数解释不直观,需要先做转换才能解释
如果只是研究自变量对因变量的影响程度,就可以对自变量回归系数进行大小比较,不必转换
-------------------------------------------------------
3案例分析(研究商户是否与本公司续约合作的隐形因素及印象程度,以及预测其他区域商户是否续约,为商务部门的后续工作计划提供依据)
变量值1表示续约
变量值0表示未续约
续约数据示例3.1步骤
分析--回归--二项logistic
将续约移至因变量
注册时间,营业收入,成本移至协变量中
logistic回归对话框保存--勾选概率--继续--logistic复选框--确定
logistic回归:保存复选框3.2回归结果解读:
个案处理摘要和因变量编码块0
部分可以忽略,因为这个模型拟合的模型只有常数项,不含任何自变量
块0 包含三个部分块1.
logistics 回归输出结果,模型系数的omnibus检验 模型摘要 分类表对角线上的3 和6 分别表示未续约,和续约的正确值,右下角的75%是正确百分比
说明通过logistic 回归分析能够有75%的准确性来判断续约的状态
方程中的变量与线性回归分析中的t检验不同的是,logistic回归系数的检验统计量的为瓦尔德(wald)
用来判断一个变量是否应该包含在模型中,判断依据是考察是否应该包含在模型中,判断依据是考察第六列的显著性格(p值)是否小于临界值
3.3预测
1.在原数据即中输入相应的新增自变量值,对应的银边浪留空,在操作logistic: 保存中勾选预测值下方额概率复选框--运行--预测值
2.将模型导出在采用平分享到的功能导入模型,导入后即可查看建模方法,因变量,自变量等,模型相关的信息--评分项到--对新数据集进行预测评分制计算
1】生成模型
打开logistics回归 对话框--保存--将模型信息导出xml文件--浏览--logistic:保存--返回--继续--logistic回归对话框--确定
2】应用模型预测
实用程序--评分导向--浏览--进行预览以查找评分模型--选择--返回--下一步--评分导向--下一步--勾选预测值--完成
网友评论