美文网首页
《商务与经济统计》第12版学习3

《商务与经济统计》第12版学习3

作者: 坚持做自己 | 来源:发表于2018-03-15 14:52 被阅读0次

    第3章 描述统计学Ⅱ:数值方法

    如果数据来自样本,计算的度量称为样本统计量。如果数据来自总体,计算的度量称为总体参数。在统计推断中,样本统计量被称为是相应总体参数的点估计量。

    3.1 位置的度量

    3.1.1 平均数(mean)

    3.1.2  加权平均数(weighted mean) 举例子大学生的平均等级分(grade point average)。

    3.1.3 中位数(median)

    将数据按升序(从小到大的顺序)排列:

    (a)对奇数个观测值,中位数是中间的数值。

    (b)对偶数个观测值,中位数是中间两个数值的平均值。

    虽然在度量数据的中心位置时,更常用的是平均数。但在数据集含有异常值的情况下,中位数往往更适合于度量数据的中心位置。

    3.1.4 几何平均数(geometric mean)

    n个数值乘积的n次方根。几何平均数常常用于分析财务数据的增长率。股票年收益率,对于乘法过程,诸如增长率的应用,几何平均数是合适的位置度量。

    在财务、投资和银行业的问题中,几何平均数的应用尤为常见,当你任何时候想确定过去几个月连续时期的平均变化率时,都能应用几何平均数。

    3.1.5 众数(mode)

    出现次数最多的数据。会有两个或者以上的众数。

    3.1.6 百分位数(percentile)

    提供了数据如何散布在从最小值到最大值的区间上的信息。

    第P百分位数是满足下列条件的一个数值:至少有P%的观测值小于或等于该值,且至少有(100-P)%的观测值大于等于该值。

    高等院校经常以百分位数的形式报告入学考试的成绩。

    3.1.7 四分位数(quartiles)

    人们经常需要将数据划分为四部分,每一部分大约包含25%的观测值。四分位数有3个。

    第一四分位数=第25百分位数

    第二四分位数=第50百分位数,中位数

    第三四分位数=第75百分位数

    注释和评论:

    调整平均数(trimmed mean):从数据中删除一定比例最大值和最小值,然后计算剩余数据的平均值。

    其他常用的百分位数是五分位数(第20百分位数、第40百分位数、第60百分位数、第80百分位数)和十分位数(第10百分位数、第20百分位数、第30百分位数、第40百分位数等等)

    3.2 变异程度的度量

    离散程度的度量

    3.2.1 极差

    极差=最大值-最小值

    它很少被单独用来度量变异程度。原因是仅仅以两个观测值为依据,因此极易受到异常值的影响。

    3.2.2 四分位数间距

    作为变异程度的一种度量,能够克服异常值的影响。第三四分位数与第一四分位数的差值,是在中间的50%的数据的极差。

    3.2.3 方差(variance)

    如果数据来自总体,则离差平方的平均值称为总体方差。

    方差的平方单位使得人们对于方差的数值很难找到直观的理解和诠释。在变量的比较中,拥有较大方差的变量显示其变异程度也较大。

    平均数的离差之和等于0.

    3.2.4 标准差

    方差的正平方根。

    3.2.5 标准差系数

    (标准差/平均数*100)%

    一般地,在比较具有不同标准差和不同平均数的变量的变异程度时,标准差系数是一个很有用的统计量。

    3.3 分布形态、相对位置的度量以及异常值的检测

    直方图对分布的形态提供了一种很好的图形描述。

    3.3.1 分布形态

    对于左偏的数据,偏度是负数,对于右偏的数据,偏度是正直。如果数据是对称的,则偏度为0.

    偏度为正值时,通常平均数比中位数大。如妇女服饰店购物,平均购物金额是77.06美元,中位数是59.70美元。少数较大的购物金额将平均数拉大,但中位数不受影响。当数据严重偏离时,中位数是位置的首选度量。

    3.3.2 z-分数

    对一个数据集,除了位置、变异程度和形态的度量外,我们还对数据集中的数值的相对位置感兴趣。

    与平均数的距离有z个标准差。

    3.3.3 切比雪夫定理

    与平均数的距离在Z个标准差之内的数据项所占比例至少为(1-1/z的平方)。

    3.3.4 经验法则

    切比雪夫定理的优点之一就是它适用于任何数据集而不论其数据分布的形状。

    符合正态分布时应用经验法则。

    3.3.5 异常值的检测

    标准化数值(z-分数)可以用来确认异常值。我们建议把z分数小于-3或大于+3的任何数值都视为异常值。然后,对它们的准确性进行检查,以确定它们是否属于数据集。

    确定异常值的另一种方法是以第一四分位数、第三四分位数、四分位数间距(IQR)

    下限=Q1-1.5*IQR

    上限=Q3+1.5*IQR

    在上下限之外的数据就是异常值。

    检测异常值是检查数据有效性的一个工具。

    3.4 五数概括法和箱形图

    五数概括法:最小值、第一四分位数、中位数、第三四分位数、最大值。

    箱形图是基于五数概括法的数据图形汇总。

    3.5 两变量间关系的度量

    3.5.1 协方差

    似乎协方差是一个大的正值就表示强的正线性相关关系,一个大的负数就表示强的负线性相关关系。但是,在使用协方差作为线性关系强度的度量时,依赖于变量的计量单位,如身高用英寸时比用英尺的数值要大。避免这种情况,用相关系数。

    3.5.3 相关系数

    注意相关系数提供了线性但不是因果关系的一个度量。两个变量之间较高的相关系数,并不意味着一个变量的变化会引起另一个变量的变化。如饭店的质量等级和代表性餐价是正相关的,但是简单地增加饭店的餐价不会提高饭店的质量等级。

    相关系数的范围是-1至+1,当相关系数接近于-1或+1,表示强的线性关系,相关系数越接近于0,线性关系越弱。

    3.6 数据仪表板:增加数值度量以提高有效性

    相关文章

      网友评论

          本文标题:《商务与经济统计》第12版学习3

          本文链接:https://www.haomeiwen.com/subject/qimxqftx.html