-
描述性统计:平均值/标准差/中位数
描述性统计是指运用制表和分类,图形以及计算概括性数据来描述数据特征的各项活动。
描述性统计分析要对调查总体所有变量的有关数据进行统计性描述,主要包括数据的频数分析、集中趋势分析、离散程度分析、分布以及一些基本的统计图形。
①数据的频数分析。在数据的预处理部分,利用频数分析和交叉频数分析可以检验异常值。
②数据的集中趋势分析。用来反映数据的一般水平,常用的指标有平均值、中位数和众数等。
③数据的离散程度分析。主要是用来反映数据之间的差异程度,常用的指标有方差和标准差。
④数据的分布。在统计分析中,通常要假设样本所属总体的分布属于正态分布,因此需要用偏度和峰度两个指标来检查样本数据是否符合正态分布。
⑤绘制统计图。用图形的形式来表达数据,比用文字表达更清晰、更简明。
-
概率:独立事件/相关事件/期望/贝叶斯
概率,亦称“或然率”,它是反映随机事件出现的可能性(likelihood)大小。
随机事件:是指在相同条件下,可能出现也可能不出现的事件。
互斥事件:事件A和B的交集为空,就是互斥事件,也叫互不相容事件。不可能同时发生的事件。
对立事件:其中必有一个发生的两个互斥事件叫做对立事件。
独立事件:在一次实验中,一个事件的发生不会影响到另一个事件发生的概率。
数学期望(mean):(或均值,亦简称期望)是试验中每次可能结果的概率乘以其结果的总和,是最基本的数学特征之一。它反映随机变量平均取值的大小。
贝叶斯定理:能利用有限的信息,帮助我们预测出概率。
贝叶斯定理
P(A)称为先验概率(Prior probability)
P(B|A)/P(B)称为可能性函数(Likelyhood)
P(A|B)称为后验概率(Posterior probability)
-
概率分布:离散概率分布/连续概率分布
离散型随机变量:可以取有限多个数值或无限可数多个数值的随机变量
连续型随机变量:可以在某一区间或多个区间内任意取值的随机变量
4种离散概率分布:二项分布、泊松分布、几何分布、超几何分布
1种连续概率分布:正态分布
离散型概率函数的基本条件
(1)对于任意随机变量的取值,函数值都是大于等于0
(2)随机变量的所有取值对应的概率之和为1
数学期望:随机变量的数学期望或均值是对随机变量中心位置的一种度量。
方差:方差用来描述随机变量取值的变异性。
离差():度量了随机变量某一特定值与数学期望或均值u的距离。
标准差:度量了数据与数据中心的数学期望的距离。标准差取方差的平方根。
线性变换的通用公式
若随机变量为X:
二项分布
二项试验(binomial experiment)具有以下四个性质:
(1)试验由一系列相同的n个试验组成
(2)每次试验由两种可能的结果,即试验结果由两个值构成,其中每个值与一个随机变量对应。我们把其中一个称为成功,另一个称为失败
(3)每次试验成功的概率都是相同的,用p来表示;失败的概率也是相同,用 1–p表示
(4)试验是相互独立的
数学期望:
方差:
进行次数固定的独立试验时可使用二项分布,每一次试验都存在成功或失败的可能,而你感兴趣的是成功或失败的次数。
泊松分布
泊松分布主要用于估计某事件在特定时间段或空间中发生的次数。
如果事件出现的次数满足以下两个性质,则随机变量服从泊松概率分布:
(1)在任意两个相等长度的区间上,事件发生的概率相等
(2)事件在任一区间上是否发生,于事件在其他区间上是否发生是独立的
在遇到独立事件时,若已知(即给定区间内的事件平均发生次数(发生率)),而你很感兴趣的是一个特定区间内的发生次数,我们就可以根据给出的参数u得到泊松概率分布函数。
如果X满足二项分布,当n较大而p较小时,X可以近似满足泊松分布。
几何分布
几何分布包含以下条件:
(1)试验由一系列相同的n个试验组成
(2)每次试验由两种可能的结果,即试验结果由两个值构成,其中每个值与一个随机变量对应。我们把其中一个称为成功,另一个称为失败
(3)每次试验成功的概率都是相同的,用p来表示;失败的概率也是相同,用q表示
(4)试验是相互独立的
数学期望:
方差:
伯努利试验(Bernoulli experiment)是在同样的条件下重复地、相互独立地进行的一种随机试验,其特点是该随机试验只有两种可能结果:发生或者不发生。
在n次伯努利试验中,试验k次才得到第一次成功的机率。详细地说,是:前k-1次皆失败,第k次成功的概率。
几何分布感兴趣的是,为了取得第一次成功需要进行多少次试验。
超几何分布
超几何概率分布于二项分布联系密切。
这两种概率分布主要有两处不同:在超几何概率分布中,各次试验不是独立的,并且各次试验中成功的概率不等。
正态分布
正态分布(Normal distribution),也称“常态分布”,又名高斯分布。正态曲线呈钟型,两头低,中间高,左右对称因其曲线呈钟形,因此人们又经常称之为钟形曲线。
数学期望:
方差:
当, 时的正态分布是标准正态分布。
正态分布两侧尾部长度对称。若以bs表示偏度。bs<0称分布具有负偏离,也称左偏态,此时数据位于均值左边的比位于右边的少,直观表现为左边的尾部相对于与右边的尾部要长,因为有少数变量值很小,使曲线左侧尾部拖得很长;bs>0称分布具有正偏离,也称右偏态,此时数据位于均值右边的比位于左边的少,直观表现为右边的尾部相对于与左边的尾部要长,因为有少数变量值很大,使曲线右侧尾部拖得很长;而bs接近0则可认为分布是对称的。
若知道分布有可能在偏度偏离正态分布时,可用偏离来检验分布的正态性。右偏时一般算术平均数>中位数>众数,左偏时相反,即众数>中位数>平均数。正态分布三者相等。
偏度(skewness),是统计数据分布偏斜方向和程度的度量,是统计数据分布非对称程度的数字特征。
峰度(peakedness;kurtosis)表征概率密度分布曲线在平均值处峰值高低的特征数。直观看来,峰度反映了峰部的尖度。样本的峰度是和正态分布相比较而言统计量,如果峰度大于三,峰的形状比较尖,比正态分布峰要陡峭。反之亦然。
在统计学中,峰度(Kurtosis)衡量实数随机变量概率分布的峰态。峰度高就意味着方差增大是由低频度的大于或小于平均值的极端差值引起的。
正态分布用「期望」描述集中趋势,用「标准差」描述离散程度;偏态分布用「中值median」描述集中趋势。
正态分布的3σ原则
实际工作中,正态曲线下横轴上一定区间的面积反映该区间的例数占总例数的百分比,或变量值落在该区间的概率(概率分布)。不同范围内正态曲线下的面积可用公式计算。
正态曲线下,横轴区间(μ-σ,μ+σ)内的面积为68.268949%。
横轴区间(μ-2.58σ,μ+2.58σ)内的面积为95.449974%。
横轴区间(μ-3σ,μ+3σ)内的面积为99.730020%。
由于“小概率事件”和假设检验的基本思想 “小概率事件”通常指发生的概率小于5%的事件,认为在一次试验中该事件是几乎不可能发生的。由此可见X落在(μ-3σ,μ+3σ)以外的概率小于千分之三,在实际问题中常认为相应的事件是不会发生的,基本上可以把区间(μ-3σ,μ+3σ)看作是随机变量X实际可能的取值区间,这称之为正态分布的3σ原则。 -
统计推断:抽样/置信区间/假设检验
统计推断是通过样本推断总体的统计方法。总体是通过总体分布的数量特征即参数 (如期望和方差) 来反映的。因此,统计推断包括: 对总体的未知参数进行估计;对关于参数的假设进行检查;对总体进行预测预报等。科学的统计推断所使用的样本,通常通过随机抽样方法得到。
置信区间的计算公式取决于所用到的统计量。置信区间是在预先确定好的显著性水平下计算出来的,显著性水平通常称为α(希腊字母alpha),如前所述,绝大多数情况会将α设为0.05。置信度为(1-α),或者100×(1-α)%。于是,如果α=0.05,那么置信度则是0.95或95%,后一种表示方式更为常用。置信区间的常用计算方法如下:
其中:α是显著性水平(例:0.05或0.10);Pr表示概率,是单词probablity的缩写;100%*(1-α)或(1-α)或指置信水平(例如:95%或0.95);
表达方式:interval(c1,c2) - 置信区间。
假设检验中的第一类错误,即H0正确而被否定,选择的显著性水平α越大,范第一类错误的概率越大。对应的第二类错误:H0错误而被接受,选择的显著性水平α越小,范第二类错误的概率越大。95%的置信区间表示得到的实验数据落在该区间的概率为95%,或者说在得到的大量实验数据中,有95%的落在该区间内。
网友评论