统计特征

作者: rol_ling | 来源:发表于2017-10-25 11:02 被阅读0次

统计特征
第二章 2-python主要数据探索函数
行人检测之初识
工作思考：纹理特征是否在阴影识别中能够有用？
QIIME2微生物组分析流程
推断统计-假设检验
数挖——探索数据
推荐排序模型ensemble dnn
图像特征与描述
数据分析和统计方法论-03

在研究数据整体的时候，统计特征可以有效的帮助我们快速了解数据。

集中量数和差异量数是描述数据的两种概念。

一：集中量数

描述一组数据的规律性的量数称为集中量数。它是一组数据的一般水平的代表值。

教育评价中常用的描述一组评价对象一般水平的量数有算术平均数、中位数和众数、几何平均数等。

1．算术平均数

算术平均数是全部数据的算术平均，又称均值，符号为M（Mean）。算术平均数是集中趋势作主要的测度值，在统计学中具有重要地位，是进行统计分析和统计推断的基础。它主要适用于数值型数据，但不适用品质数据。根据表现形式的不同，算术平均数有不同的计算形式和计算公式。其中，算术平均数是加权平均数的一种特殊形式（它特殊在各项全相等），在实际问题中，当各项权不相等时，计算平均数时就要采用加权平均数，当各项权相等时，计算平均数就要采用算数平均数。两者不可混淆。

简单算术平均数

简单算术平均数主要用于未分组的原始数据。设一组数据为X1，X2，...，Xn，简单的算术平均数的计算公式为：

M=(X1+X2+...+Xn)/n

优缺点

算数平均数具备了良好集中量数应具备的一些条件：

1、集中量数

2、反应灵敏

3、确定严密

4、简明易解

5、计算简单

6、适合进一步演算

7、较小受抽样变化的影响等优点。

同时也存在一定的缺点，限制了它的使用：

1、算术平均数易受极端数据的影响，这是因为平均数反应灵敏，每个数据的或大或小的变化都会影响到最终结果。

2、若出现模糊不清的数据时，无法计算平均数。[1]

应用原则

1、同质性数据

2、平均数与个体数值相结合考虑

3、平均数于方差、标准差相结合考虑

二．中位数

中数（Median），又名中位数。对一组数进行排序后，正中间的一个数（数字个数为奇数）；或者中间两个数的平均数（数字个数为偶数）。

中数是按顺序排列在一起的一组数据中居于中间位置的数，即在这组数据中，有一半的数据比它大，有一半的数据比它小。这个数可能是数据中的某一个，也可能根本不是原有的数。

优点

1、计算简单

2、容易理解

3、不受极端值影响

缺点

1、反应不够灵敏

2、受抽样影响较大

3、中数乘以总次数于总数不相等

4、不能进一步代数运算

应用情况

1、需要快速估算集中值时

2、有极端数据时

3、有模糊不清楚的数据时

3.众数

众数（Mode），一组数据中出现次数最多的数值，叫众数，用M表示。

计算众数的方法

（一）、根据单项数列求众数，不需要任何计算，可以直接从分配数列中找出出现次数或频率最大的一组标志值，就是所求的众数。

（二）、对组距数列求众数。对众数的计算有两种公式：

1、上限公式：

2、下限公式

其中：

f表示众数所在组次数；

f-1表示众数所在组前一组的次数；

f+1表示众数所在组后一组的次数；

L表示众数所在组组距的下限；

U表示众数所在组组距的上限；

i表示组距；

优点

1、简单明了

2、容易理解

缺点

1、不稳定，受分组和样本变动影响

2、反应不灵敏

3、不能进一步做代数运算

应用

1、需要快速估算一组数据集中值时。

2、数据不同质时

3、两极端有极端值时

4、快速估计分布形体时

4．几何平均数

几何平均数（Geometric mean），是求一组数值的平均数的方法中的一种。适用于对比率数据的平均，并主要用于计算数据平均增长（变化）率。

几何平均数（geometric mean）是指n个观察值连乘积的n次方根。

1、简单几何平均数：

2、加权几何平均数：

应用

1、对比率、指数等进行平均；

2、计算平均发展速度；

其中：样本数据非负，主要用于对数正态分布。

3、复利下的平均年利率；

4、连续作业的车间求产品的平均合格率。

二：差异量数

差异量数亦称变异量数，又称离散趋势量数，它是统计学的基本概念之一，指表示样本数据偏离中间数值的趋势的量数，或者说它是反映样本频率分布离散程度的量数。差异量数大，表示各数值分布的范围广且参差不齐；差异量数小，表示各数值较集中、整齐，波动的范围幅度小。因此，集中量数的代表性如何，可由差异量数得到反映。差异量数愈大，则集中量数的代表性愈小；差异量数愈小，则集中量数的代表性愈大。所以，考察某种分布的差异量数，还有助于对集中量数的理解。

常见的差异量有平均差、方差、标准差、全距、四分差、百分差等。

1.平均差

一组数据( 样本)Xi，i = 1，…，N(1)的平均差公式为下图

它是算术平均数与各数据距离的平均，有效地利用了信息，能直接很好地反映这组数据的差异程度。但由于MD（平均数）用了绝对值，难以进行代数运算，理论分析困难，所以运用较少。

2.方差

它是将MD中的距离改为距离的平方得到。方差可有效地利用信息，且能很好地反映这组数据的差异程度。这样改变后，虽然不如平均差反映差异那么直接，但避免了绝对值，从而进行数学处理更加方便，应用最广。

3.标准差

标准差（Standard Deviation），在概率统计中最常

4.全距

全距是用来表示统计资料中的变异量数(measure sofvariation)，其最大值与最小值之间的差距；即最大值减最小值后所得之数据。其适用于等距变量、比率变量，不适用于名义变量或次序变量。

全距也称为极差，是指总体各单位的两个极端标志值之差，即：R=最大标志值－最小标志值

因此，全距（R）可反映总体标志值的差异范围。

5.四分差与百分差

百分差与四分差只利用了数据的部分信息，不能进行代数运算，反应不灵敏，但当两极端数据不清楚或数据信息不全时，只能用百分差与四分差。

全距、百分差与四分差都只利用了数据的部分信息，一般是在数据信息不全，平均差和方差及其改进量不能用时选用。

网友评论

本文标题：统计特征

本文链接：https://www.haomeiwen.com/subject/qyzzyxtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

统计特征

一：集中量数

1．算术平均数

二．中位数

3.众数

二：差异量数

1.平均差

2.方差

3.标准差

4.全距

5.四分差与百分差

相关文章

统计特征

第二章 2-python主要数据探索函数

行人检测之初识

工作思考：纹理特征是否在阴影识别中能够有用？

QIIME2微生物组分析流程

推断统计-假设检验

数挖——探索数据

推荐排序模型ensemble dnn

图像特征与描述

数据分析和统计方法论-03

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

统计特征

一：集中量数

1．算术平均数

二．中位数

3.众数

二 ：差异量数

1.平均差

2.方差

3.标准差

4.全距

5.四分差与百分差

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

二：差异量数