所谓水平度量,就是衡量变量取值的大小。
(插播一句:既然都能衡量大小了,变量肯定是数值变量,而不是类别变量,或者说对类别变量进行水平度量是没有意义的)
具体的度量方式有:
1. 平均数。
1.1 平均数就不用说了
1.2 加权平均数:把原始数据分为k组,每组的元素个数还不一样(不同频数),使用每组的中位数作为该组的值,中位数乘以频数然后所有组加和然后再除以总样本数,就叫加权平均数了。感觉没什么卵用。
2. 分位数
2.1 中位数:把所有的数按大小顺序排列,中间位置的数就是中位数。(一共奇数个元素的话中间位置就1个数,一共偶数个元素的话就是最中间的两个数的平均值)
2.2 四分位数:中位数是中间位置,四分位数就是25%和75%位置的数。当不是恰好是整数位置时,有个按比例均摊的机制,比如第3.3个数应该是由 第3个数*0.7 + 第4个数*0.3 得来。
2.3 百分位数:类似的概念。Python的numpy.percentile函数已经把这些操作全封装好了。
3. 众数
出现次数最多的值,一般来说针对离散型变量才有意义。
4. 各度量方式的特点
平均数:直观度量了特征的大小情况、会受异常值影响、若原始特征为偏态分布则平均数的表达有限
分位数或众数:能表达的信息不如平均数多,但比较稳健,不受异常值或偏态分布的影响。
综上:若数据较正态时,用平均数;若数据比较偏态,则用分位数或众数。实际中分位数或众数应用应该更多,因为现实中没有那么多正态分布~~~
网友评论