美文网首页
20190813SPSS学习心得(二)

20190813SPSS学习心得(二)

作者: 6bd9f7257faf | 来源:发表于2019-08-13 17:39 被阅读0次

一、逻辑回归(logistic回归),主要解决二分类问题

      log\frac{p}{1-p} =β_{0}+β_{1}X_{1}+β_{2}X_{2}+...+β_{p}X_{p}+ε

     y经过3次变换;p是值为1的概率值,1-p是值为0的概率值;当x是分类数据,模型表现最佳

二、看数据

        先看行数据,再看列数据;再看ID是什么性质的,从ID判断数据是什么类型的

        1、行分析

            
          2、列分析

             测量级别和角色(对X和Y的判断)

            需要满足以下六条中任一条可能为Y,全部满足肯定是Y:

             ①、存在预测误差

             ②、花费成本会很高

             ③、抽象的(如信用、绩效、发病率等,与之相对的是显性变量(看得见摸得着的变量))

             ④、整合性指标(X变量都是单一指标)

             ⑤、业务危机发生点(如运营报告)

             ⑥、BOSS的思路

          注:违约率,国际大银行大概在2%以内;国内四大商业银行在10%以内(好的是5%-8%);国内地方商业银行在百分之十几左右;国内互联网金融在20%-40%。

三、logistic回归模型创建步骤

        1、画条形图

             面积图:是查看数据拐点

             条形图:查看波动、趋势、累计,一般是和折线图组合一起使用

             直方图:看连续型数据分布情况,研究均值与标准差问题

              饼图:查看占比情况,比条形图效果好

        2、用卡方作预分析(和线性回归中的r解读方式一样,使用交叉表来分析)

             行百分比→强调y的重要性→属于logistics回归→对应p值

             列百分比→强调X的重要性→分析woe

             总体百分比→用来作卡方分析

             期望本身不相关,统计学的单位是误差

             2.1 交叉表中期望=行总计值*单列值/总数=f11,即卡方=\sum_{} (f_{i}-f_{11i})^2/f_{11i},操作步骤是点击统计→点击卡方

卡方标准分布图

        注:卡方分析作用:百分比是卡方系数;公式很重要,在大数据分析领域应用很大;用于分类与分类间分析

3、回归分析

             3.1 三个指标: β→or=e^βZ_{β}→garma;R^2→伪R^2

             3.2 SPSS查看三个表信息,分别是分类表a,b、分类表a、模型摘要和方程中的变量

                   3.2.1    分类表a,b中百分比是没有X时的概率值,反映的是猜测值的底线值或起点值

                   3.2.2    分类表a中百分比是预测值的概率值(银行要求大于90%),一般用(这个值-起点概率值)/(100%-起点概率值)来判断好坏

                   3.2.3    模型摘要,查看伪R^2(即麦克斯-斯奈尔系数,银行要求大于50%)

                    3.2.4    方程中的变量,B的范围是(-∞,+∞),exp(B)的范围是[0,∞), or=exp(Bi)=e^β=\frac{\frac{p′}{1-p′}}{\frac{p}{1-p}} (用来表示倍数)或\frac{(or-1)}{1} * 100\%(用来反映百分比,正表示增加,负表示下降)。一般地,给老板汇报用百分比描述,给客户说明或增长率超过100%用几倍

                    3.2.5 Garma=\frac{or-1}{or+1} ,值范围是[-1,1],正负反映的是方向

        4、修正X(不用关注残差)

               PRE → P_{\hat{y}},PGR → \hat{y}。当P_{\hat{y}}>0.5时,\hat{y}为真;当P_{\hat{y}}<0.5时,\hat{y}为假

              4.1 工具变量(大数据分析会用到)

                    4.1.1 目的:用新加的X定位真正的影响因子X,即用工具变量找与之相关的X。

                    使用工具变量改善模型的步骤:

                      ①、判断问题所在,一般有n个变量,存在的问题会有(n-1)*n种问题,找到最需要解决的问题

                      ②、使用if...then..生成工具变量

                      ③、把工具变量加入模型判断伪R^2是否发生改善

                      ④、把工具变量接入大数据后面

                      ⑤、建相关分析,把真正相关的变量Xi找出来;即查看r系数,r大于等于0.8较好,值越高这变量越可能时真正的因子

                      ⑥、把找到的变量Xi接入小数据后面

                      ⑦、重新建模型,把找到的变量Xi加入模型

                 SPSS是通过数据对接方式来连接数据:数据→合并文件→添加变量→点击要合并的文件(右连接是非活动数据集是键控表(K),左连接是活动数据集是键控表(A),外连接是两个表都提供个案(B),内连接是指示个案源变量(I)) 。主表是活动数据集,一般在主表上点击合并文件功能         

              4.2 哑变量(就是woe分箱作优化后无法再细分时,这个变量就是哑变量)

               小数据分析会用到,通过创建虚变量所产生的变量,注新增的变量种需要删除一个剔除相关性问题;大数据不用创建虚变量,在逻辑回归种有个分类选项可以直接新增哑变量

              4.3 woe分箱(大数据分析经常会用到)

                    4.3.1 定义

                              分箱是把连续型数据分组成分类数据的过程

                              最优是把分类数据分组成连续型数据的过程

                      4.3.2分箱的好处:

                      ①、通俗

                      ②、速度快(名义数据比有序数据快,模拟数据比现实数据快,数值数据比文本数据快,逻辑数据比数值数据快)

                      ③、避免过拟合

                      ④、加强监督(woe的作用)

                      ⑤、避免强异常值

                      ⑥、可做到数据保密

                      4.3.3 SPSS 实现分箱步骤:

                       点击转换 → 点击可视分箱 → 生成分割点(等宽区间分组 适用均匀分布的数据,基于所扫描个案的相等百分位数适用偏态分布数据,基于所扫描个案的平均值和标准差适用正态分布数据)

                       注:一般尽量细分组数多些,方便后面调优合并组降低分析成本;电商一般6-8个组间区分,信用卡评分是16-20组间区分

                       4.3.4 把定制表转换为数据集步骤:

                      ①、打开OMS:点击实用程序→点击OMS控制面板

                      ②、运行定制表

                      ③、关闭OMS:点击OMS控制面板,将状态由active修改为结束状态

                        4.3.5 一键搞定woe方法:点击编辑→选项→文件位置→会话日志中statistics.jnl文件保存的就是操作记录内容,把文件中生成woe相关的语句拷贝出来

                        4.3.6 woe优点:

                      ①、处理缺失值

                      ②、判断分组的合理性,即优化分组

                      ③、加强监督

                      ④、非线性直线化

                        4.3.6 woe的使用:

                          woe_{i}=ln\frac{P_{i1}}{P_{i0}} (分子是为yes的列百分比,分母是为no的列百分比)

                           IV=\sum_{ } [(P_{i1}-P_{i0})woe_{i}],是对woe进行加权求和

                           IV值小于2%,不好;2%-10%勉强可以;10%-30%比较好;30%-50%很好;大于等于50%好的有点过头,存在问题

                           依据公式通过构建定制表来计算woe和IV,再通过拆分方式来进行分组画出各分类对应woe的条形图,然后结合图形、IV和业务情形来修正:

                      ①、发现有某几个分组相差不大,说明分组不合理需调整,解决方法一般是合并

                      ②、若图形呈现“U”型、“/”型或“\”型并且与业务情形相符,那这个分组是可行的;否则不可行,这个变量需要舍弃

        5、应用

            归因(主次归因和规则归因)和预测(老样本和新样本)

        5、总结

             逻辑回归和线性回归比较:

二者简单比较

相关文章

  • 20190813SPSS学习心得(二)

    一、逻辑回归(logistic回归),主要解决二分类问题 y经过3次变换;p是值为1的概率值,1-p是值为0的概...

  • Vue.js,学习心得(十二)组件二

    学习心得,组件(二), 直接上代码了

  • 明年今日4月2日记录

    21天挑战读书王开始第二天,我输出2份学习心得

  • 漫话小学语文教学

    ——和美课堂学习心得 四联小学 夏良兰 “二月春耕昌杏密,...

  • C语言文件输入和输出操作的学习心得(四)

    概述 C语言文件输入和输出操作的学习心得(一)C语言文件输入和输出操作的学习心得(二)C语言文件输入和输出操作的学...

  • 319昊辰第七课第二次作业#裂变增长实验室#2019-08-05

    第七课第二次作业:【作业】参加被动引流赚钱训练营的前后对比图,以及学习心得。需要提交简书作业的链接。 学习心得: ...

  • 学习心得二

    2017年中,我因为血压高,感到不适,结缘了李氏虎符铜砭,那天刮完人舒服了很多,自此便刮开了,然后和几个好友一齐各...

  • 学习心得二

    2017年中,我因为血压高,感到不适,结缘了李氏虎符铜砭,那天刮完人舒服了很多,自此便刮开了,然后和几个好友...

  • 学习心得二

    学习第二天 学习内容:赵老师课程:成功投资的一条路——价值投资;什么是价值投资——投资与投机;投资最重要的事:安全...

  • 学习心得二

    学习第二天 学习内容:赵老师课程:成功投资的一条路——价值投资;什么是价值投资——投资与投机;投资最重要的事:安全...

网友评论

      本文标题:20190813SPSS学习心得(二)

      本文链接:https://www.haomeiwen.com/subject/zxibjctx.html