美文网首页
常见概念

常见概念

作者: vv阿甘vv | 来源:发表于2019-05-12 20:15 被阅读0次

1. 集中趋势

  1. 众数(mode):一组数据中出现次数最多的变量值 M_0
  2. 中位数:一组数据排序后处于中心位置上的变量值;
  3. 分位数:对数据排序后进行数量上的拆分,Q_L表示下四分位数,Q_U表示上四分位数,常见的有:
    1. 四分位数
    2. 十分位数
    3. 百分位数
  4. 平均数:用符号\mu表示,样本均值用\overline{x}表示,用来测量定量数据的集中趋势;
    1. 简单平均数(mean),公式:\overline{x} = \frac{x_1+x_2+x_3\dots+x_n}{n}
    2. 加权平均数(weighted mean),分组数据均值,公式 \overline{x} = \frac{M_1*f_1+M_2*f_2+\dots+M_n*f_n}{n};
    3. 几何平均数(geometric mean),计算平均比率,公式 \overline{G}=\sqrt[n]{x_1*x_2\dots*x_n}

平均数、中位数和众数的比较:
三者皆代表数据的中心位置,作为数据的代表;
都可以作为集中趋势的度量,
但平均数容易受到极端值的影响


2. 离散趋势

  1. 异众比率:V_r 用来衡量众数对一组数据的代表程度;f_m为众数组的频数, \sum{f_i}总频数,异众比率越大说明数据分布越分散,异众比率越小,说明数据分布越集中;

V_r = 1 - \frac{f_m}{\sum{f_i}}

  1. 极差和平均差

    1. 极差 R = max-min
    2. 离差 x_i-\overline{x}
    3. 平均差(平均绝对离差) M_d = \frac{\sum|{x_i-\overline{x}|}}{n}
    4. 分组数据平均差 M_d = \frac{\sum|{M_i-\overline{x}}|f_i}{n}
  2. 方差和标准差

    1. 总体方差

    \sigma^2 = \frac{\sum({x_i-\overline{x}})^2}{n}

    1. 样本方差
      s^2 = \frac{\sum({x_i-\overline{x}})^2}{n-1}

    2. 标准差:方差的开平方 \sigma = \sqrt{\sigma^2}

    3. 分组数据总体方差
      \sigma^2 = \frac{\sum({M_i-\overline{x}})^2}{n}

    4. 分组数据样本方差
      s^2 = \frac{\sum({M_i-\overline{x}})^2}{n-1}

    5. 标准分数:z分数,特性,平均数为0,标准差为1;也就是可知道某个数值相对于平均值的离散程度,(如:距离平均数3个标准差),还可以用来比较两个不同度量的数据离散程度;

    z=\frac{x_i-\mu}{\sigma}

    1. 四分位差(内距或四分间距),用Q_d或者IQR表示:

    Q_d = Q_u-Q_L = Q_3-Q_1

    1. 变异系数,又叫离散系数,表示一组数据的离散程度,可以用来比较两组数组的离散程度,值越小,离散程度越小

c_v = \frac{\sigma}{|\mu|}

3. 数据分布的形状

  1. 偏态(skewness): 是对分布对称性的测度,测量偏态的统计量是偏态系数sk
    sk = \frac{n*\sum(x_i-\mu)^3}{(n-1)(n-2)*\sigma^3}

分组数据偏态系数
M_i分组均值
sk = \frac{\sum(M_i-\mu)^3f_i}{n\sigma^3}

|sk| >1 ,高度偏态
0.5 < |sk| < 1 ,中度偏态
sk = 0 ,对称,无偏态

sk>0, 右偏态, sk <0 ,左偏态

  1. 峰态(kurtosis): 是对分布平峰或尖峰的测度,测量峰态的统计量是峰态系数 K

K = \frac{n(n+1)\sum(x_i-\mu)^4 - 3[\sum(x_i-\mu)^2]^2(n-1)}{(n-1)(n-2)(n-3)\sigma^4}

分组数据峰态系数
K = \frac{\sum(M_i-\mu)^4f_i}{n\sigma^4} - 3

标准正态分布的峰度系数设为0,
通过与标准正态分布相比较,
K>0为尖峰分布,K<0 为扁平分布

4. 数据分布特征总结

切比雪夫法则

  1. 可能有很少的测量值落在平均值的1个标准差范围内;
  2. 所有数据中,至少有3/4(或75%)的数据位于平均数的2个标准差范围内;
  3. 所有数据中,至少有8/9(或88.9%)的数据位于平均数的3个标准差范围内;
  4. 所有数据中,至少有24/25(或96%)的数据位于平均数的5个标准差范围内。通常,对于任意大于1的数k,至少有 1-\frac{1}{k^2}的测量值落在k个标准差范围内;

经验法则

适用条件:数据对称分布

  1. 大约68%的测量值位于均值的一个标准差范围内;
  2. 大约95%的测量值位于均值的2个标准差范围内;
  3. 几乎所有的测量值位于均值的3个标准差范围内;
image.png

相关文章

  • 常见概念

    目录 [TOC] 常见基本概念 最小二乘:  适用于具有低方差,高偏差的数据 最近邻:  适用于具有高方差,低偏差...

  • 常见概念

    数据库 事务 A C I D 隔离级别 脏读 不可重复度 可重复度 :自身的修改操作 update 和 delet...

  • 常见概念

    1. 集中趋势 众数(mode):一组数据中出现次数最多的变量值 ; 中位数:一组数据排序后处于中心位置上的变量值...

  • 常见金融概念

    投资收益权指发行人以其持有的经过相关监管部门批准或依法无须批准的金融资产,或其他在未来一定时间内预期可取得稳定收益...

  • GIS常见概念

    WebSocketWebSocket协议是基于TCP的一种新的网络协议。它实现了浏览器与服务器全双工(full-d...

  • 常见概念整理

    卷积后的矩阵大小: n:原矩阵大小p:padding大小f:卷积核大小s:步长 检测评价函数:IoU(Inters...

  • 域名常见概念

    部分内容转载自 风破城的ChinaUnix博客 根域 就是所谓的“.”,其实我们的网址www.baidu.com在...

  • java常见概念

    一. 反射:JAVA反射机制是在运行状态中,对于任意一个类,都能够知道这个类的所有属性和方法;对于任意一个对象,都...

  • Java 常见概念

    1.HashMap和HashTable的区别 [x] HashMap去掉了contains方法 [x] HashT...

  • 常见概念答疑

    ●1.编写代码时,申明的类一定要继承自一个类 ● 2.Final可以修饰的元素 ! Final类可以创建对象 简称...

网友评论

      本文标题:常见概念

      本文链接:https://www.haomeiwen.com/subject/gjlhaqtx.html