3.1 变量的水平度量

作者: 迪丽娜扎 | 来源:发表于2019-06-05 18:06 被阅读0次

所谓水平度量，就是衡量变量取值的大小。

（插播一句：既然都能衡量大小了，变量肯定是数值变量，而不是类别变量，或者说对类别变量进行水平度量是没有意义的）

具体的度量方式有：

1.1 平均数就不用说了

1.2 加权平均数：把原始数据分为k组，每组的元素个数还不一样（不同频数），使用每组的中位数作为该组的值，中位数乘以频数然后所有组加和然后再除以总样本数，就叫加权平均数了。感觉没什么卵用。

2.1 中位数：把所有的数按大小顺序排列，中间位置的数就是中位数。（一共奇数个元素的话中间位置就1个数，一共偶数个元素的话就是最中间的两个数的平均值）

2.2 四分位数：中位数是中间位置，四分位数就是25%和75%位置的数。当不是恰好是整数位置时，有个按比例均摊的机制，比如第3.3个数应该是由第3个数*0.7 + 第4个数*0.3 得来。

2.3 百分位数：类似的概念。Python的numpy.percentile函数已经把这些操作全封装好了。

出现次数最多的值，一般来说针对离散型变量才有意义。

平均数：直观度量了特征的大小情况、会受异常值影响、若原始特征为偏态分布则平均数的表达有限

分位数或众数：能表达的信息不如平均数多，但比较稳健，不受异常值或偏态分布的影响。

综上：若数据较正态时，用平均数；若数据比较偏态，则用分位数或众数。实际中分位数或众数应用应该更多，因为现实中没有那么多正态分布~~~

网友评论

本文标题：3.1 变量的水平度量

本文链接：https://www.haomeiwen.com/subject/ommsxctx.html

3.1 变量的水平度量