
场景:
前篇曾经验证过年薪与种族、是否经理、教育程度之间关系,证明出种族与年薪无关。可是作为少数族裔总认为受到偏见,继续追踪年薪与种族的关系已经没有意义了。可是不甘心,那么少数族裔与是否经理会不会有关系呢?如果有,也就是少数族裔在当经理方面与白人概率不同,它会间接影响到年薪啊,就此设想我们再次来验证下。
准备工作:想要验证是否有概率差别,就得先找到实际数据(实然)与应该数据(应然),然后对比验证。
交叉表(cross tabulation)就是一种寻找两种数据后的结果呈现。常用于定类变项和定序变项之间的关系。以2个变相为例,会形成2行2列的含4个单元格的表格。交叉表以变项间是否有因果关系,分为平面的(flat)和立体的(contingent)两类,前者没有因果关系,后者有因果关系。区别是前者两变项随意放置在行或列,后者只能将自变项放置在列、因变项放置在行。
举个例子:
平面的(无因果):学生心目中的老师,分别以面相与心灵两个变项组合。

立体的(有因果)


以上每单元格预期值(下图绿色)=本行合计*本列合计/总合计(下图红色标记)。

万事俱备开始验证:
概念:
卡方验证(Chi-square):Chi其实是希腊字母“χ”,square是平方。
卡方值计算如下:

自由度:即有几个单元格可以任意取值,如观察值表(2*2表格)中四种情况,只要一个单元格任意取值后,其他单元格数值便已经确定。所以自由度为1。2*3的表格就必须最少两个单元格任意取值才能确定其他单元格数值,所以自由度为2。
以卡方值、和自由度,查下表得出P值(alpha——犯第一类弃真错误的概率),验证零假设——种族与是否经理两者无关是否正确。如果P<0.05则认为零假设不成立,种族变项对是否经理有影响。

计算的结果如下:

卡方值=17.592;自由度=1
查下表:

P<0.001,所以原来假设种族与经理无关不成立,放弃两变项无关假设的错误风险概率<0.001。
另:自己学的马马虎虎,辛苦战友点评,大家看起来可能很困难。秉承“完成比完美更重要”,先打开学习之门,建立概率统计思维。
网友评论