美文网首页大数据文科生的数据分析
[数据分析] 参数和统计量

[数据分析] 参数和统计量

作者: 几米墟 | 来源:发表于2019-10-27 12:13 被阅读0次

    讨论参数估计之前,先对参数这事情是什么(参数的定义)做个说明。

    我们之前讲过,统计学研究的一大主题就是“用样本来科学地推断整体”。通常来讲呢,整体大部分由于种种原因无法做到普查,我们只能(无奈地)选择观察样本,也就是“抽样”。抽完样,我们就有了一份“样本”。注意,这里的样本一是要保证随机性,一是要能力上可以处理。随机性需要花时间解释,这里先按下不表。可以笼统地认为“无任何特定目的”地抽取样本,有目的就有人为因素,结果就可能被这个特定目的带到坑里了。能力上可以处理就应该比较容易理解,不能处理的样本没有什么现实意义。

    好,有了一份(或者多份,看玩家有没有充值648,钱多就能多份,钱少只能一份,呵呵)“能够处理”且“随机抽样”的样本。那么,就可以用统计的方式来计算样本统计量了。什么是统计量?针对这个样本,平均数是统计量,中位数是统计量,方差是统计量。有点明白了么?现实中,我们可以拿到的真实数据,往往就是样本的,然后计算这个样本统计量。为啥叫统计量?当然因为“能够处理”的样本才能被统计,而“无法直接处理”的整体,我们根本抓不到、摸不着啊~

    所以,我们把整体对应样本的统计量叫做参数。简单点讲,样本的平均数是一个统计量;此样本对应的整体的平均数,则是一个参数。参数的集合就是这个整体的统计特征集,或者可以认为我们用参数集合描述了这个整体。就好像相亲,我们用 [身高,年龄,体重,性别,年收入,家里有没有矿] 描述了某个潜在对象。

    样本的平均数是不是就等于整体的平均数呢?当然不会绝对的等于。但是,我们认为这个统计量“在一定的条件下”会“基本上”等于整体的参数,也就是样本的平均数可以被认为是整体的平均数。这样卫健委调查某几所小学的男孩平均身高和标准差,就可以推断全市,甚至全国的同等年龄段的男孩的平均身高和标准差了。

    这里要多提一个概念,自由度。我们上次讲的方差公式还记得不?

    \sigma ^2 = \sum_{1}^n(x-\bar{x} )^2  /n

    可以看到分母是n,但这个公式是计算整体的方差的(有时候,整体不大,也能处理,我们就直接算了,不需要抽样在统计推断了)。样本方差的计算稍有不同,分母变成了n-1。

    \sigma ^2=\sum_{1}^n(s-\bar s)^2/n-1

    最大的变化就是分母不再是除以n而是n-1,为什么?这里就有自由度的概念。统计学中,几乎所有的方法和指标都会涉及自由度的概念,因为它和例数有关。自由度的字面概念就是:可以自由取值的数值的个数(df)。举个简单的例子,a+b+c=10。这个公式中,如果a和b都自由取值,那么一旦a和b确定了,c就不能再自由了,c=10-a-b。所以,c是“不自由”的。这个式子的自由度,不是3(虽然有三个自变量),而是2。

    要站在巨人的肩膀上么!前代的统计学家已经证明,如果样本的统计量要对整体做“无偏估计”,那么自由度必须减1。

    顺便提一句t检验中的理论基础t分布就是一组按自由度排列的类钟形曲线,当自由度超过“30”的时候就可以认为近似正态分布。30这个数字是不是对很多人很熟悉啊?哈哈哈。今天到此。下次继续参数估计。至于30,这个和中心极限有关,慢慢来。

    相关文章

      网友评论

        本文标题:[数据分析] 参数和统计量

        本文链接:https://www.haomeiwen.com/subject/voppvctx.html