2.01 crosstabs and scatterplots (交叉表和散点图)
描述两个变量关联性
crosstabs(交叉表, contingency table列联表):
用于表示分类变量关联关系

因为上图中的行和列表示的是不同的案例,因此很难看出2个变量之间的关系,因此需要算出他们的比例:

注意:比例是求固定自变量内各因变量与该列自变量总数的比(列百分比)
scatterplots(散点图):
用于表示定量变量之间关联性

2.02 Pearson's r
皮尔森系数描述变量之间关联性强弱
方向: += positive(正相关); -= negative(负相关)
强弱: -1=完美的负相关; +1=完美的正相关
下面是一组关联性示意图

如何计算皮尔森系数?
Zx为 元素x轴坐标值的z分数, Zy为元素y轴坐标值的z分数, 各元素 Zx*Zy的和除以n-1
以下为计算过程

注: 在计算皮尔森系数之前,先使用散点图来检查一下变量之间是否是线性关系,若不是,请不要使用皮尔森系数
网友评论