推断统计是研究如何利用样本数据来推断总体特征的统计方法,其特点是根据速记的观测样本数据以及问题的条件和假定,对未知事物作出的以概率形式表述的推断。推断性统计有四个理论部分:概率理论,抽样理论、估计理论和假设检验理论。概率理论和抽样理论是推断性统计的基础,而估计理论和假设检验理论是推断性统计的应用。
基础概念
- 随机事件:在同一组条件下,每次试验可能出现也可能不出现的事件。
- 必然事件:在同一组条件下,每次试验一定出现的事件。
- 不可能事件:在同一组条件下,每次试验一定不会出现的事件。
- 基本事件:如果一个事件不能分解成两个或更多事件,则被称为基本事件。
- 随机变量:为研究随机事件的统计规律性,将数学分析的方法引入对随机事件的研究中,可以将随机事件的结果与实际数值对应起来,将结果数量化。根据随机变量所代表的数值的不同,可以将随机变量分为离散型随机变量与连续型随机变量。
- 概率分布:指随机变量的取值与其概率所构成的分布,根据随机变量的分类可分为离散型概率分布和连续型概率分布。
概率确定
- 古典法概率,又称事前概率, 即如果每一个基本事件出现的概率是等可能的,则不需要做任何试验就可以事前计算出事件的概率。但实际生活中,“基本事件出现的可能性相等”这一条件基本不可能满足,必须使用其他确定概率的方法。
- 相对频数法,又称预计频率,是用过去发生的事件的相对频率当作概率。采用相对频数确定概率时,通过增加试验次数,就能提高概率精确性。但使用相对频数确定概率的问题是,人们往往无法获得所需要的重复试验的次数。
- 主观概率法,又称个人概率,是根据个人的主观直觉和经验确定的概率。主观概率不是凭空臆造,而应该是建立在个人经验和知识的基础上,唯有这样才能得到精确的概率。
基本运算
-
加法公式:
加法公式
加法公式用于计算时间A发生或事件B发生或同时发生的概率。
-
条件概率:
条件概率
用于计算给定条件B下A的概率。
-
乘法公式:
乘法公式
乘法公式用于计算两事件交的概率。
- 贝叶斯定理: 贝叶斯定理 贝叶斯定理用来描述两个条件概率之间关系。在运用概率对某一事件进行推断之前,我们可能已经事先掌握了关于这一事件的先验概率。在后续的研究中,可以通过抽样调查样本等方法对先验概率进行修正,使先验概率变为后验概率。这个修正概率的定理就称为贝叶斯定理。贝叶斯推断与其他统计学推断方法截然不同,它建立在主观判断的基础上,你可以不需要客观证据,先估计一个主观概率对部分未知的状态进行描述,然后根据实际结果不断修正,最后再利用期望值和修正概率做出最优决策。
概率分布
离散型概率分布的概率函数称为概率质量函数,概率是散布在随机变量的各个离散取值上的,所以二维坐标的纵轴为概率;连续型概率分布的概率函数称为概率密度函数,二维坐标纵轴为密度,随机变量取值范围内任意点的概率为0,随机变量取值范围内任意区间的概率为曲线下积分面积。
主要的离散型概率分布
二项分布:n个独立的成功/失败试验(伯努利试验)中成功的次数的离散概率分布。
二项分布概率质量函数 n为试验次数,x为随机事件发生次数,p为随机事件发生的概率。通过n和p可以确定一个二项分布。多项分布:把二项分布公式推广至多种状态,就得到了多项分布。
超几何分布:用于描述有限总体无放回抽样试验中随机事件发生的概率。 超几何分布概率质量函数 N为样本总数,m为样本中不合格的数量,n为无放回抽样个数,k为抽样中不合格品的数量。若n=1,即从N个样品中抽取一件,恰好抽到不合格样品的概率,此时,超几何分布可以还原为伯努利分布;若N无穷大,归还和不归还对于样品整体的不合格样品率没有影响,此时,超几何分布可视为二项分布,在实际应用时,只要N>=10n(取样数小于样本总体数的十分之一),就可用二项分布近似描述不合格品个数。
泊松分布:用于描述在连续时间或空间单位上发生随机事件的概率。 泊松分布概率质量函数 k为随机事件发生次数,λ为一个事件(不一定是本随机事件)在一段时间或空间内发生的平均次数或数学期望。使用泊松方法计算随机变量的概率,要求产生随机结果的过程满足以下三个假设条件:(1) 在给定的区间内,已知由经验确定一个常数λ(lambda),常数λ对类似的确定单位相等。(2) 任意区间发生事件的次数是相互独立的。(3) 任意相等的两个区间发生一次事件的概率相等,并且这个概率值很小。因此,在二项分布中,如果试验次数n很大,二项分布的概率p很小,只要n≥20,p≤0.05时,就可以用泊松分布代替二项分布。
主要的连续型概率分布
连续型均匀概率分布:在连续型随机变量的取值范围内,随机变量的任意取值的密度为不变的常数,这样的分布称为连续型均匀概率分布。
正态分布:如果随机变量X具有概率密度函数:
指数分布:指数分布的概率密度函数为: 指数分布概率密度函数 指数分布具有以下特征:随机变量X的取值范围是从0到无穷;极大值在x=0处,即f(x)=λ;函数为右偏,且随着x的增大,曲线稳步递减。前面讲述的泊松分布是描述某一区间内发生随机事件次数的概率分布,而指数分布是描述两次随机事件发生时间间隔的概率分布,主要应用在随机事件之间发生的时间间隔的概率问题。
近似
泊松分布近似二项式分布
正态分布近似二项式分布
正态分布近似泊松分布
网友评论