美文网首页
2.差异性

2.差异性

作者: Spinggang | 来源:发表于2018-11-09 17:06 被阅读0次

    1. 四分位数

    1.1 简述

            四分位数(Quartile)也称四分位点,是指在统计学中把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值。多应用于统计学中的箱线图绘制,剔除异常值。四分位数有三个,第一个四分位数就是通常所说的四分位数,称为下四分位数,第二个四分位数就是中位数,第三个四分位数称为上四分位数,分别用Q1、Q2、Q3表示:

        Q1:第一四分位数、“较小四分位数”,等于该样本中所有数值由小到大排列后第25%的数字。

        Q2:第二四分位数、又称“中位数”,等于该样本中所有数值由小到大排列后第50%的数字。

        Q3:第三四分位数、又称“较大四分位数”,等于该样本中所有数值由小到大排列后第75%的数字。

        IQR:  又称四分位距,IQR = Q3 - Q1

    1.1 确定四分位数

        Q1的位置= (n+1) × 0.25

        Q2的位置= (n+1) × 0.5

        Q3的位置= (n+1) × 0.75

     (n 表示样本数量)

        example :

            n 为奇数

            样本数据:6,10,12,15, 17,19,22,25,29,44 ,66

            数据索引:1、 2、  3、  4、   5、  6、 7、  8、  9、  10、  11 (即可表示为第 1 个数据为 6,第 2 个数据为 10)

            Q1 的位置  :(11 + 1) × 0.25 = 3.0    即 Q1 = 12

            Q2 的位置  :(11 + 1) × 0.5  =  6.0    即 Q2 = 19

            Q3 的位置  :(11 + 1) × 0.75 = 9.0    即 Q3 = 29

              n 为偶数

            样本数据:   7,  15,  36,  39,  40,  41

            数据索引:1、 2、 3、 4、  5、 6

            Q1的位置:(6 + 1)  × 0.25 = 1.75 在第一与第二个数字之间, Q1 = 0.75*15+0.25*7 = 13,

            Q2的位置:  (6 + 1)  × 0.5 = 3.5 在第三与第四个数字之间,Q2 = (36+39)/2= 37.5,

            Q3的位置:(6 + 1)  × 0.75 = 5.25 在第五与第六个数字之间, Q3 = 0.25*41+0.75*40 = 40.25.

    1.1 应用

              A.四分位数在统计学中的箱线图绘制方面应用也很广泛。所谓箱线图就是 由一组数据5 个特征绘制的一个箱子和两条线段的图形,这种直观的箱线图不仅能反映出一组数据的分布特征,而且还可以进行多组数据的分析比较。这五个特征值,即数据的最大值、最小值、中位数和两个四分位数。    

            B. IQR (四分位差)

                IQR = Q3 - Q1  

                IQR 的不足:无法考虑所有的数据、完全不同的两个数据集也可以有相同的IQR,例如正太分布、均匀分布、双峰分布。

           C. 定义异常值

                统计学中判断异常值的方式:

                异常值被定义为不在 Q1 - 1.5(IQR)  ~  Q1 + 1.5(IQR) 范围内的数据。

                 outlier < Q1 - 1.5(IQR)

                             > Q1 + 1.5(IQR) 

    相关文章

      网友评论

          本文标题:2.差异性

          本文链接:https://www.haomeiwen.com/subject/ulimxqtx.html