美文网首页
week one 数据的描述性统计

week one 数据的描述性统计

作者: phoenixalex | 来源:发表于2019-07-20 20:36 被阅读0次

    众数是指一组数据中出现次数最多的那个数据,一组数据可以有多个众数,也可以没有众数。

    中位数是指将数据按大小顺序排列起来,形成一个数列,居于数列中间位置的那个数据。中位数用Me表示。

    分位数(Quantile),亦称分位点,是指将一个随机变量的概率分布范围分为几个等份的数值点,常用的有中位数(即二分位数)、四分位数、百分位数等。

    算术平均数(算术平均法)是总体各单位某一数量标志的平均数。通过算术平均数,可以用来求出一定观察期内预测目标的时间数列的算术平均数作为下期预测值的一种最简单的时序预测法。

    加权平均值即将各数值乘以相应的权数,然后加总求和得到总体值,再除以总的单位数。加权平均值的大小不仅取决于总体中各单位的数值(变量值)的大小,而且取决于各数值出现的次数(频数),由于各数值出现的次数对其在平均数中的影响起着权衡轻重的作用,因此叫做权数。

    几何平均数,是统计学中的一种动态平均指标,多是指社会经济现象的同质总体在时间上变动速度的平均数。加权几何平均数是各标志值fi次方的连乘积的次方根。

    方差是各个数据与其算术平均数的离差平方和的平均数,通常以σ2表示。方差的计量单位和量纲不便于从经济意义上进行解释,所以实际统计工作中多用方差的算术平方根——标准差来测度统计数据的差异程度。

    标准差又称均方差,一般用σ表示,标准差等于方差的平方根。

    极差又称范围误差或全距(Range),以R表示,是用来表示统计资料中的变异量数(measures of variation),其最大值与最小值之间的差距,即最大值减最小值后所得之数据。

    平均差是总体各单位标志对其算术平均数的离差绝对值的算术平均数。它综合反映了总体各单位标志值的变动程度。平均差越大,则表示标志变动度越大,反之则表示标志变动度越小。

    四分位差又称内距、也称四分间距(inter-quartile range),是指将各个变量值按大小顺序排列,然后将此数列分成四等份,所得第三个四分位上的值与第一个四分位上的值的差。

    异众比率又称离异比率或变差比,是指的是非众数的次数与全部变量值总次数的比率,即众数不能代表的那一部分变量值在总体中的比重。

    变异系数又称“标准差率”,是衡量资料中各观测值变异程度的另一个统计量。当进行两个或多个资料变异程度的比较时,如果度量单位与平均数相同,可以直接利用标准差来比较。如果单位和(或)平均数不同时,比较其变异程度就不能采用标准差,而需采用标准差与平均数的比值(相对值)来比较。

    标准差与平均数的比值称为变异系数,记为C.V。变异系数可以消除单位和(或)平均数不同对两个或多个资料变异程度比较的影响

    偏度(Skewness)

    用来描述数据分布的对称性,正态分布的偏度为0。计算数据样本的偏度,当偏度<0时,称为负偏,数据出现左侧长尾;当偏度>0时,称为正偏,数据出现右侧长尾;当偏度为0时,表示数据相对均匀的分布在平均值两侧,不一定是绝对的对称分布,此时要与正态分布偏度为0的情况进行区分。

    当偏度绝对值过大时,长尾的一侧出现极端值的可能性较高。

    峰度(Kurtosis)

    用来描述数据分布陡峭或是平滑的情况。正态分布的峰度为3,峰度越大,代表分布越陡峭,尾部越厚;峰度越小,分布越平滑。很多情况下,为方便计算,将峰度值-3,因此正态分布的峰度变为0,方便比较。

    在方差相同的情况下,峰度越大,存在极端值的可能性越高。

    相关文章

      网友评论

          本文标题:week one 数据的描述性统计

          本文链接:https://www.haomeiwen.com/subject/wbmuvttx.html