美文网首页大数据文科生的数据分析
[数据分析] 样本、抽样和整体,也说说对统计的理解

[数据分析] 样本、抽样和整体,也说说对统计的理解

作者: 几米墟 | 来源:发表于2019-02-23 12:35 被阅读27次

本来这周的安排是写方差和标准差。动笔之后,发现不先说清楚样本和整体,方差什么的就只是个名词而已。

先稍微讲一下数学,毕竟统计就是数学的一个分支。通过票圈大家知道了著名的装逼名言:世界有三类人,数学家、实现数学家预言的工程师,和…其他人。是不是特别像“一等男人开政府、二等男人开保险公司、剩下都是三等男人”,吼吼吼~

但是,数学给人感觉其实还是“没用”。这个直观的感觉是对的,纯粹的数学是没有什么“用”的。我们用等速螺线来描述鹦鹉螺壳的优美曲线,但鹦鹉螺的生长原则其实很简单,不过就是最大可能利用上一个空间的一条边的情况下,用最少的几丁质材料做一个尽可能大的新空间。这个“逻辑”的结果,就是一条近似完美的等速螺线。受重力影响足够大的物体几乎都是球体也是类似道理。所以数学是一种“逻辑”,表述了一种“原理”,阐述了对现实的一种“理解”或者“观点”。比较过分的是,为了高效,或者装逼,那些数学家硬生生把自然语言改成了代数公式,相当于把Python搞成了汇编,结果就是大部分人疯了。周诰殷盘,佶屈聱牙。

好了回到统计。不知道有没有人和我一样,第一次接触统计的时候会困惑为啥要研究这么个东西?后来学了经济学和心理学,这个问题才慢慢有点模模糊糊的答案。

第一个答案是:穷。对某件事情的了解,最直白莫过于普查。想要知道中国人口的情况,做人口普查最准确、最直接了。为啥不这么干呢?贵啊!老这么干GDP都拿去填人口普查的坑了。

第二个答案是:焦虑。人的本性就是好奇。越不知道越想知道,不知道的未来也非要加一个解释。还要问,这个解释靠不靠谱啊…

于是,穷且焦虑的人类,创造了统计。当然,我们这么有想象力的、穷且焦虑的人类还创造了很多“统计”,比如星座配对啊,摸骨测字算命啊~开会报数,撒谎耍赖,互相死怼,等等等等~

穷怎么解决呢?整体搞不定,那就划个小圈子呗,划圈子的动作就是“抽样”。这个小圈子呢,就是“样本”。对于这个样本,我们就可以进行各种自己看感兴趣的研究了。好了,研究来研究去,这个结果终究是样本的情况。那么样本对于整体意味着什么呢?这个就是统计解决的问题了,利用数学的逻辑,去“证明”整体的情况“类似于”样本。虽然预算少,我们也可以认为“基本”知道了整体情况。举个例子,想要知道下大学生毕业平均薪水的情况。可以抽样100个大学生毕业的薪水,计算这100个学生的平均薪水,然后再推论“所有符合条件”的大学生毕业薪水的平均数,就是“近似于”这100个样本的平均薪水。

细心点的读者马上就会发现,这“抽样”里的花样就多了。比如,你去知乎用户里抽样这100个,可能结论就是平均毕业薪水50万…呵呵,有没有被平均的感觉?这就涉及到了“随机抽样”的问题,这里不展开,留个#TODO。

除了经济上的原因,有时候整体的情况在当代的科技水平下,是真的不可知。比如天文学和天体物理学都会研究宇宙的恒星数量和物质总量,但是这个真不知道确切的数字。只能通过“可观测的宇宙”,再用统计的方式来推测整个宇宙的情况。

那么,焦虑怎么办?答案是概率。相信大家直觉上都马上就明白了,样本的情况(或者专业点讲:特征集合)一定是能“在一定程度上”表述整体的情况的。不然,我们不太蠢了么… 关键在于“多大程度上”。概率分布可以用了表达对某个️事件(比如样本平均数是否等于整体平均数)的可信程度(置信区间)。以前特别热门的Six Sigma概念就是基于正态分布的置信。

说起概率,大家一定会提到“抛硬币”。抛的次数多了,正反面出现的概率就慢慢稳定在了50%。这个就是古典概率里的频率稳定的方式来描述概率。其实,还有贝叶斯学派对概率的解释,认为概率是对某个事件的信心表述。贝叶斯的概念是个非常重要的概念,有兴趣的读者可以自己“深度学习”一下。

这么一想,统计的最浅层的存在意义就是:用加班和便当来描述诗和远方,再问你信不信这碗鸡汤。咳咳,用样本的情况来描述整体,并且给出这个情况的可信程度。

那么统计对你有啥意义?好吧,统计会改变你的思维模式。再举例说明。用过导航app都知道路线确定后,程序会给出一个预计到达时间。请问这个时间是怎么来的?我问过不少人,基本的回答就是距离除以(平均)速度。当然不是咯~ 现实中的方式是:假定“到达时间”是某些特征向量的函数,这些特征可以是“所在城市”、“路线现有拥挤指数”、“行驶方式”、“是否高峰期”等等,通过回归的方式来预测。

0、回到目录

1、也说说平均数 -- 2019/02/23

相关文章

  • [数据分析] 样本、抽样和整体,也说说对统计的理解

    本来这周的安排是写方差和标准差。动笔之后,发现不先说清楚样本和整体,方差什么的就只是个名词而已。 先稍微讲一下数学...

  • R语言sample()函数

    随机抽样又分为重复随机抽样和不重复随机抽样两种。重复抽样是指:本次从整体中抽取出的数据样本,在下一次抽取时同样有机...

  • 统计学基础2

    目录 抽样和抽样分布 区间估计 假设检验 抽样和抽样分布 抽样是为了估计总体的参数 样本比率: 样本均值的抽样分布...

  • 概率统计(共4篇)——2 数理统计与描述性分析

    本文假设你有一定的统计基础,此文帮助你整理和回顾。 1 统计量与抽样 (1)统计量:样本的某种函数,它能将样本的信...

  • 《统计学》第六版 第1 - 3 章

    数据分析方法 描述统计 数据收集、处理、汇总、图表描述、概括与分析等 推断统计 样本数据推断总体特征 统计数据...

  • 特征工程-特征处理小结

    特征处理包括:数据清洗和特征预处理。 一、数据清洗: 1.数据样本抽样 ①样本要具备代表性 ②样本比例要平衡以及样...

  • 统计检验简单小结

    统计学是一个在海量样本的总体(population)中抽样(sample),并以样本统计量评估总体参数的过程。比方...

  • v501打卡第一天

    社会学是什么第一章: 1、理解以下概念:样本、总体、抽样、抽样误差、抽样框。 样本:调查中被用来代表总体的研究对象...

  • 数据分析基础—4.2 数据清洗

    在数据分析中,抽样采集的样本数据往往存在各种异常情况,如大量缺失,错误数据、重复数据等,直接影响数据分析效果...

  • 数据分析基础—4.2 数据清洗

    在数据分析中,抽样采集的样本数据往往存在各种异常情况,如大量缺失,错误数据、重复数据等,直接影响数据分析效果...

网友评论

    本文标题:[数据分析] 样本、抽样和整体,也说说对统计的理解

    本文链接:https://www.haomeiwen.com/subject/hawuyqtx.html