今天我们公司的一个做数据的女孩子问我卡方检验问题,女孩子的问题不管怎么样都要回答的,也帮他解决了,虽然这是一个简单的统计方法,正好我最近打算梳理一下用LR做评分卡WOE那部分就把卡方检验梳理一下。
什么是卡方检验
卡方检验是一种用途很广的计数资料的假设检验方法。它属于非参数检验的范畴,主要是比较两个及两个以上样本率( 构成比)以及两个分类变量的关联性分析。其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。(这部分是百科里面抄过来的应该比较权威)
上例子
话说,说完概念就不应该太啰嗦,应该用例子来说明,一看就能看懂,我要举的这个例子也是网上的,但是我觉得这例子是我精挑细选的,保证你几分钟能看懂。
例子讲的是喝牛奶对感冒的影响(我们想知道喝牛奶对感冒发病率有没有影响)
从这图可以看出喝牛奶对感冒是有影响的,但是其实不一定因为很大可能是我们抽样,抽样的样本太少的原因。所以不能完全统计到。
为了得到喝牛奶对感冒发病率有没有影响,我们假设两个条件是独立的,就是喝牛奶和感冒是没有任何联系的。
所以我们现在算一个数就是不管喝不喝牛奶的总人数里面感冒的占整体人数的比例
(43+28)/(43+28+96+84)= 28.29%
我们算出每组数的期望,得到如何下表:
如果喝牛奶喝感冒真的是独立无关的,那么四格表里的理论值和实际值差别应该会很小。
卡方检验的计算公式为:
其中,A为实际值,T为理论值。
x2用于衡量实际值与理论值的差异程度(也就是卡方检验的核心思想),包含了以下两个信息:
1. 实际值与理论值偏差的绝对大小(由于平方的存在,差异是被放大的)
2. 差异程度与理论值的相对大小
网友评论