问:为什么要学习统计学?
答:数据分析的前提是对数据有感知,比如数据如何搜集?数据整体分布是怎样的?数据的平均值、最大值、最小值?故掌握统计学非常重要。
喜欢给大家分享我的成长,我是小梅子。这是我第二次复习统计学,距离初次学习已有一个月的时间,当然我也不负众望该忘记的都忘记了,脑袋里面只有一个印象概率、各种分布、以及一堆问题 ——
- 概率和数据分析有关系吗?
- 统计学和数据分析有关系吗?统计学的知识如何运用到数据分析上面?
- 用python进行数据分析时经常用describe查看数据的描述性统计(最大值、最小值、平均值、中位数、下四分位数、上四分位数),但概率论在数据分析里几乎没用,为什么要学习概率勒?
- 为什么要学习抽样分布,它和概率一样在数据分析里面运用不多?
可能很多人和我一样,刚接触统计学就拿着一本《深入浅出统计学》开始学习。(PS:600多页呀,想想都崩溃。而且开篇还用了大量的篇幅介绍条形图、堆积图、直方图、均值中位数众数,总之会学习到怀疑人生)。
从18年9月自学到19年2月。除了收获知识外,还培养了自学能力吧,其实我们在学习新的知识的时候先要知道学习的框架,也就是学习目标吧,但因为是自学往往学习目标是不清楚的。比如我学习统计学我也问了学习重点,但学了之后脑袋还是懵的,今天在次复习的时候思路清晰很多。
最后想告诉大家——第一遍学习懵是正常的,别着急,所谓书读百遍其义自见,我们回头多看几遍就好了。
附上统计学大纲
统计概率:
1、描述性统计。分类数据、数值数据基础分析方法
2、概率。离散型概率的常见分布图、连续性概率常见分布图
3、估计。抽样、区间估计和线性回归
ps:很多人可能和我一样,觉得统计学只需要学习概率,然后学习概率后发现如果不做机器学习或者数据挖掘几乎用不上概率知识……于是就会迷茫、为什么要学习统计?为什么要学习概率?
如果作为入职数据分析行业,只需要学习描述性统计就OK,概率部分可以学习更高深算法的时候查漏补缺。但面试的时候又会问概率相关的知识,所以基础的概率分布我们还是要掌握。
我们学习新知识后都会存在疑问:我工作中可以用这些知识吗?用在什么地方?怎么用?好了下面说说统计学知识如何运用到数据分析上面。
-一、描述性统计。面对一份数据的时候如何分析,用哪些方法,从哪些角度去切入。总之统计是教会我们一种基础的数据分析方法。
- 学习后可初步的了解分类型数据、数值型数据的分析思路。比如:分类数据应该计算频率,绘制柱状图;数值型数据应该观察平均数、中位数、四分位数、变异性和离散型
- 当然关于数据分析分析思路进近学习该部分内容是远远不够的,需要我们通过大朗实战进行练习,掌握业务分析指标。比如我上一篇文章第一篇数据分析项目:用户消费行为分析,可以练习喔
- 现在我觉得描述性统计的介绍,只是为了给我们介绍数据分析基础指标、以及指标的定义。具体分析方向并没有涉及。
二、概率。描述的是不确定性。数据挖掘和机器学习里面最后预测出来都是一种概率,所以概率论与我们模型学习有千丝万缕的关系。
概率与统计关系十分密切。大量的统计知识起源于数据理论,因此懂得盖伦出会让你的统计技术登上一个新的台阶。概率理论能帮助你进行预测,发现模式。
小结:统计学习目标,统计与数据分析间的关系就给大家介绍到这。下面是纯统计、纯概率知识,如果你对统计学已经掌握就不需要往下看啦~~~~~
主要内容
第一部分:描述性统计及常见指标
第二部分:概率论(连续性概率、离散型概率)
第三部分:抽样及区间估计
第一部分:描述性统计及常见指标
- 数据可视化
- 从一大堆的数字中看出模式和趋势
1、平均数(均值)。平均数容易受异常值的影响
2、中位数。数据按照升序排序,中位数为中间的数值
3、众数。数据中频数最大的数
分散性(四分位数)和变异性(方差标准差)的度量
4、全距。也叫极差,是度量数据集分散程度的一种方法,最大值 - 最小值。
5、四分位数。上四分位数、中位数、下四分位数
6、四分位距。即一个不受异常值影响的迷你距,上四分位数 - 下四分位数
7、上界 下界
8、百分位数
9、方差。方差是度量数据分散性的一种方法,是数值与均值的距离的平方数的平均值
10、标准差。标准差是度量分散性的一种方法,它描述了典型值与均值的距离。如果标准差越大,意味着数值往往距离均值较远。方差开平方根
11、标准分:距离均值标准差的个数。是对不同数据集的数值进行比较的一种方法,这些数据集的均值和标准差互不相同
- 案例:假想有两位能力不同的篮球队员:第一位命中率是70%,其标准差是20%;第二位投篮命中率是40%,标准差是10%
在某一次训练中,球员1投篮命中率是75%,球员2投篮命中率是55%。从球员本人历史记录来看,哪一位球员的表现更好
第二部分:概率论(连续性概率、离散型概率)
1、概率。对事件发生可能性的一种表达,事件的概率总是介于0到1之间
2、文恩图
3、对立事件
4、互斥事件。事件A发生时,B无法发生。独立事件,A的结果对B的结果没有影响。相关事件,如果几个事件互相有影响,则为相关事件。
5、相交事件
6、事件的补。给定一个事件A。事件A的补是指所有不属于事件A 的样本点组成的事件
7、条件概率。事件A发生的可能性会受到另一个相关事件发生与否的影响
8、全概率公式。 根据条件概率计算一个特定事件的全概率。某一事件A的发生有各种可能的原因,每一原因都可能导致A 发生,故A发生的概率各个原因引起A发生的概率和
9、贝叶斯定理。计算逆条件概率的方法。全概率公式是贝叶斯定理的分母。
离散性概率分布
10、数学期望。随机变量的数学期望或均值是对随机变量中心位置的一种度量
11、随机变量的方差。
10、二项分布。
- N次试验
- 每次试验有两种可能的结果,我们把其中一个称为成功,另一个陈伟失败
- 每次成功概率相同,用P 表示;失败概率也相同,用1 - p表示
- 试验是相互独立的
11、泊松分布
- 在任意两个相等长度的区间上,事件发生的概率相等
- 时间在有一区间上是否发生与事件在其他区间上是否发生时独立的
EG:在任意时间段上是否有汽车到达与其他时间段上是否有汽车到达是相互独立的
12、超几何分布
- N件产品,合格m件,不合格N - m件,取三件恰有一件合格的概率
连续性概率分布
13、均匀概率分布
14、正态分布
- 正态分布中每个分布因均值和标准差这两个参数不同而不同
- 正态曲线的最高点在均值处到达
- 正态分布是对称的。均值左边的曲线形状是均值右边曲线形状的镜像
- 标准差决定曲线的宽度和平坦度,标准差越大曲线越宽越平坦。
15、标准正态分布
- 均值为0,标准差为1
16、二项分布的正态近似
17、泊松概率分布的正态近似
17、指数概率分布
第三部分:抽样分布
统计需要数据,数据从何而来。如何在工作中收集数据,如何有效、正确、省时省力的收集数据
1、总体。是指所有的对象
2、样本。从总体中选取的一部分对象
网友评论