数据分析必掌握的统计学知识

作者: 数据分析不是个事儿 | 来源:发表于2019-03-11 14:18 被阅读164次

统计知识
数据分析必掌握的统计学知识
这些年，你不可不知的描述性统计
描述统计学之R语言实战1：表格法
数据挖掘的十大经典算法，总算是讲清楚了，想提升自己的赶快收藏
数据挖掘的10大算法我用大白话讲清楚了，新手一看就懂
数据分析入门技能树
统计学七支柱：业务数据分析中常用的统计学思维
数据分析需要掌握的技能
产品新人学统计学第一课 — 统计学入门

此文是《10周入门数据分析》系列的第7篇

想了解学习路线，可以先阅读 学习计划 | 10周入门数据分析

统计学是数据分析的基石。学了统计学，你会发现很多时候的分析并不靠谱。比如很多人都喜欢用平均数去分析一个事物的结果，但是这往往是粗糙的，不准确的。如果学了统计学，那么我们就能以更多更科学的角度看待数据。

大部分的数据分析，都会用到统计方面的以下知识，可以重点学习：

基本的统计量：均值、中位数、众数、方差、标准差、百分位数等

概率分布：几何分布、二项分布、泊松分布、正态分布等

总体和样本：了解基本概念，抽样的概念

置信区间与假设检验：如何进行验证分析

相关性与回归分析：一般数据分析的基本模型

通过基本的统计量，你可以进行更多元化的可视化，以实现更加精细化的数据分析。这个时候也需要你去了解更多的Excel函数来实现基本的计算，或者python、R里面一些对应的可视化方法。

有了总体和样本的概念，你就知道在面对大规模数据的时候，怎样去进行抽样分析。

你也可以应用假设检验的方法，对一些感性的假设做出更加精确地检验。

利用回归分析的方法，你可以对未来的一些数据、缺失的数据做基本的预测。

了解统计学的原理之后，你不一定能够通过工具实现，那么你需要去对应的找网上找相关的实现方法，也可以看书。先推荐一本非常简单的：吴喜之-《统计学·从数据到结论》。也可以看《商务与经济统计》，结合业务能更容易理解。

另外，如何精力允许，请掌握一些主流算法的原理，比如线性回归、逻辑回归、决策树、神经网络、关联分析、聚类、协同过滤、随机森林。再深入一点，还可以掌握文本分析、深度学习、图像识别等相关的算法。关于这些算法，不仅需要了解其原理，你最好可以流畅地阐述出来，还需要你知晓其在各行业的一些应用场景。如果现阶段不是工作刚需，可不作为重点。

本文算是一个知识点汇总，不做细致展开，让大家了解统计学有哪几大块，每一类分别用于什么样的分析场景。后面几篇会以实际案例的方式，细致讲讲描述性统计、概率分布等。

知识点汇总：

1.集中趋势

2.变异性

3.归一化

4.正态分布

5.抽样分布

6.估计

7.假设检验

8.T检验

一、集中趋势

1.众数

出现频率最高的数；

2.中位数

把样本值排序，分布在最中间的值；

样本总数为奇数时，中位数为第(n+1)/2个值；

样本总数为偶数时，中位数是第n/2个，第(n/2)+1个值的平均数；

3.平均数

所有数的总和除以样本数量；

现在大家接触最多的概念应该是平均数，但有时候，平均数会因为某些极值的出现收到很大影响。举个小例子，你们班有20人，大家收入差不多，19人都是5000左右，但是有1个同学创业成功了，年入1个亿，这时候统计你们班同学收入的“平均数”就是500万了，这也很好的解释了，每年各地的平均收入数据出炉，小伙伴们直呼给祖国拖后腿了，那是因为大家收入被平均了，此时，“中位数”更能合理的反映真实的情况；

二、变异性

1.四分位数

上面说到了“中位数”，把样本分成了2部分，再找个这2部分各自的“中位数”，也就把样本分为了4个部分，其中1/4处的值记为Q1，2/4处的值记为Q2，3/4处的值记为Q3

2.四分位距 IQR=Q3-Q1

3.异常值

小于Q1-1.5(IQR)或者大于Q3+1.5(IQR);

对于异常值，我们在数据处理的环节就要剔除；

4.方差

5.平方偏差

方差的算术平方根

6.贝塞尔矫正：修正样本方差

实际在计算方差时，分母要用n-1，而不是样本数量n。原因在于，比如在高斯分布中，我们抽取一部分的样本，用样本的方差表示满足高斯分布的大样本数据集的方差。由于样本主要是落在x=u中心值附近，那么样本如果用如下公式算方差，那么预测方差一定小于大数据集的方差（因为高斯分布的边沿抽取的数据也很少）。为了能弥补这方面的缺陷，那么我们把公式的n改为n-1，以此来提高方差的数值，这种方法叫贝塞尔矫正系数。

三、归一化

1.标准分数

一个给定分数距离平均数多少个标准差？

标准分数是一种可以看出某分数在分布中相对位置的方法。

标准分数能够真实的反映一个分数距离平均数的相对标准距离。

四、正态分布

1.定义：随机变量X服从一个数学期望为μ，方差为σ⊃2;的正态分布，记为N(μ,σ⊃2;)

随机取一个样本，有68.3%的概率位于距离均值μ有1个标准差σ内；

有95.4%的概率位于距离均值μ有2个标准差σ内；

有99.7%的概率位于距离均值μ有3个标准差σ内；

五、抽样分布

1.中心极限定理

设从均值为μ，方差为σ⊃2;的任意一个总体中抽取样本量为n的样本，当n充分大时，样本均值的抽样分布近似服从均值为μ、方差为σ⊃2;/n的正态分布

2.抽样分布

设总体共有N个元素，从中随机抽取一个容量为n的样本，在重置抽样时，共有N·n种抽法，即可以组成N·n不同的样本，在不重复抽样时，共有N·n个可能的样本。每一个样本都可以计算出一个均值，这些所有可能的抽样均值形成的分布就是样本均值的分布。但现实中不可能将所有的样本都抽取出来，因此，样本均值的概率分布实际上是一种理论分布。数理统计学的相关定理已经证明：在重置抽样时，样本均值的方差为总体方差的1/n。

举个例子：

48盆MM豆，计算出每盆有几个蓝色的MM豆，48个数据构成了总体样本。然后随机选择五盆，计算五盆中含有蓝色MM豆的平均数，然后反复进行了50次。这就是n为5的样本均值抽样。

六、估计

1. 误差界限

2. 置信度

We are some % sure the true population parameter falls within a specific range

我们有百分之多少确信总体中的值落在一个特定范围内；

一般情况下，取95%的置信度就可以；

3. 置信区间

七、假设检验

1.问题：什么是显著性水平？

显著性水平是估计总体参数落在某一区间内，可能犯错误的概率，也就是Type I Error

A Type II Error is when you fail to reject the null when it is actually false.

2. 如何选择备选检验和零假设？

一个研究者想证明自己的研究结论是正确的，备择假设的方向就要与想要证明其正确性的方向一致；

同时将研究者想收集证据证明其不正确的假设作为原假设H0

八、T检验

1. 主要用于样本含量较小（例如n<30），总体标准差σ未知的正态分布。

流程如下：

是用t分布理论来推论差异发生的概率，从而比较两个平均数的差异是否显著；

一般检验水准α取0.05即可；

计算检验统计量的方法根据样本形式不同;

2. 独立样本T检验：

现在要分析男生和女生的身高是否相同两者的主要区别在于数据的来源和要分析的问题。

问题：为什么T检验查表时候要n-1?

样本均值替代总体均值损失了一个自由度

3. 配对样本t检验

分析人的早晨和晚上的身高是否不同，于是找来一拨人测他们早上和晚上的身高，这里每个人就有两个值，这里出现了配对

样本误差（Standard Error）

4. Pooled variance 合并方差

当样本平均数不一样，但实际上认为他们的方差是一样的时候，需要合并方差

不要被公式吓到，他的本质是两个样本方差加权平均

5. Cohen’s d

效应量(effect size):提示组间真正的差异占统计学差异的比例，值越大，组间差异越可靠。

此文是《10周入门数据分析》系列的第7篇。

想了解学习路线，可以先行阅读“ 学习计划 | 10周入门数据分析 ”

公众号上已更新到第13篇，欢迎前往关注~

统计知识
成为数据分析师要掌握的统计学知识（基础版） - 简书成为数据分析师要掌握的统计知识（进阶版） - 简书数据分析...
数据分析必掌握的统计学知识
此文是《10周入门数据分析》系列的第7篇想了解学习路线，可以先阅读学习计划 | 10周入门数据分析统计学是数...
这些年，你不可不知的描述性统计
前一篇分享了统计学需要掌握的知识，在数据分析过程中，广泛用于数据质量处理，分析模型构建以及数据挖掘。做好数据分析...
描述统计学之R语言实战1：表格法
统计学是搜集、分析、表述和解释数据的科学与艺术，掌握统计学相关知识可以帮助我们更好的发现数据背后隐藏的价值，R语言...
数据挖掘的十大经典算法，总算是讲清楚了，想提升自己的赶快收藏
一个优秀的数据分析师，除了要掌握基本的统计学、数据分析思维、数据分析工具之外，还需要掌握基本的数据挖掘思想，帮助我...
数据挖掘的10大算法我用大白话讲清楚了，新手一看就懂
一个优秀的数据分析师，除了要掌握基本的统计学、数据库、数据分析方法、思维、数据分析工具技能之外，还需要掌握一些数据...
数据分析入门技能树
理论知识：数据分析、数据挖掘、统计学。数据库：MySQL 分析工具：spss 、modeler 、excel 编...
统计学七支柱：业务数据分析中常用的统计学思维
【导读】产品运营离不开数据分析，而数据分析少不了统计学知识，我们可能并不关心统计学是什么，但是了解日常业务数据分析...
数据分析需要掌握的技能
一. 数据分析，需要掌握哪些必备的统计学知识描述统计学1.平均值、中位数、众数2.方差、标准差3.统计分布：正态...
产品新人学统计学第一课 — 统计学入门
统计学是数据分析的重要基础和核心工具，是数据分析师必须掌握的一门知识。统计，通过某种有意义的方式对原始信息或数字进...

数据分析必掌握的统计学知识

相关文章

统计知识

数据分析必掌握的统计学知识

这些年，你不可不知的描述性统计

描述统计学之R语言实战1：表格法

数据挖掘的十大经典算法，总算是讲清楚了，想提升自己的赶快收藏

数据挖掘的10大算法我用大白话讲清楚了，新手一看就懂

数据分析入门技能树

统计学七支柱：业务数据分析中常用的统计学思维

数据分析需要掌握的技能

产品新人学统计学第一课 — 统计学入门

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

上班这点事

统计与科研

统计

IT@程序员猿媛

2019c

呆鸟的Python数据分析

生物信息

生信学习