CHAP5 离散型概率分布
5.4 二元分布,协方差和金融资产组合
1) 协方差的计算
numpy.cov()
5.5二项概率分布
二项试验的属性
- n次。2.每次有两种结果。3.概率固定(稳定)。4.每次试验相互独立
相关计算
功能 | Python | excel | tableau | R |
---|---|---|---|---|
二项试验n次中成功k次 | scipy.special.comb(n,k) | |||
n次试验成功k次的概率 | binom.pmf(k, n, p) | |||
n次试验至少成功k次的概率 | binom.cdf(k,n,p) |
5.6 泊松概率分布
泊松概率分布的属性
- 任意两段等长间隔发生次数的期望相等。
- 互相独立。
期望和方差
均为μ
相关计算
功能 | Python | excel | tableau | R |
---|---|---|---|---|
期望为μ成功k次的概率 | binom.pmf(k, μ) | |||
n次试验至少成功k次的概率 | binom.cdf(k,n,p) |
5.7超几何分布
相关计算
功能 | Python | excel | tableau | R |
---|---|---|---|---|
总量N,含r个标注成功的样本,抽取:n,成功:k | hypergeom.pmf(k, N, r, n) | |||
总量N,含r个标注成功的样本,抽取:n,成功:k,累计概率 | hypergeom.cdf(k,N,r,n) |
5.x 总结
1.超几何的N足够大时,可以将二项分布作为超几何分布的近似。p=r/N
2.二项分布的N足够大,p足够小时,可以将泊松分布看做二项分布的近似。μ=np
CHAP6 连续概率分布
5.0 注意点
概率密度函数probability densityf unctionfly
注意离散型分布可以直接给出概率函数,而非概率密度函数
5.1 均匀分布
概率密度函数
a,b为分布的起,止点
f(x) = 1/(b-a)
E(x) = (a+b)/2
相关计算
功能 | Python | excel | tableau | R |
---|---|---|---|---|
起始点l,宽度s在位置p的概率密度 | uniform.pdf(p,l,s) | |||
起始点l,宽度s,概率到p所处的位置 | uniform.cdf(p, l, s) | |||
起始点l,宽度s,位置小于a的累计概率 | uniform.ppf(a, l, s) |
5.2 正态分布
期望:μ
标注差:
相关计算
功能 | Python | excel | tableau | R |
---|---|---|---|---|
期望μ,方差s,在位置p的概率密度 | norm.pdf(p,μ,s) | |||
期望μ,方差s,概率到a时的概a的累计概率 | norm.cdf(a,μ,s) | |||
期望μ,方差s,累计概率为p时的位置 | norm.ppf(p,l,s) |
5.3 指数分布
指数分布是泊松过程的时间间隔的分布。
参数:μ
相关计算
功能 | Python | excel | tableau | R |
---|---|---|---|---|
期望μ,在位置p的概率密度 | expon.pdf(p,loc=0,scale=μ) | |||
期望μ,位置到a时的累计概率 | expon.cdf(a,l,μ) | |||
期望μ,累积到概率p时的位置 | expon.ppf(p,l,μ) |
CHAP7. 抽样和抽样分布
7.2 抽样
分为从有限总体和无限总体中抽取。无限总体一般是不断产生样本的过程:比如生产,从流动客户/人群中抽样。 从无限总体中抽样需要保证:1)来自统一整体。2)每个样本的 抽取是独立的。
相关计算
功能 | Python | excel | tableau | R |
---|---|---|---|---|
抽取 | DataFrame.sample(n=None, frac=None, replace=False, weights=None, random_state=None, axis=None) |
7.3点估计
- 样本统计量(sample statistic) 是 总体参数(population paraments) 的 点估计 (point estimator)
- 为了保证点估计的有效性,需要保证抽样总体和目标总体是高度一致的。
7.4抽样分布简介
7.4.1 抽样分布的理解
一个简单随机样本的抽取是一个试验,则样本的某个统计量是对试验结果的一个数值描述。因此该样本统计量本身是一个随机变量,因此样本统计量是一个随机变量。
任何特定样本的样本统计量的概率分布称为该统计量的抽样分布。
7.5 x_bar的抽样分布
定义
x_bar的抽样分布是样本均值的所有可能值的概率分布。
期望
E(x_bar) = μ
当点估量的期望值等于总体参数时,称这个点估计量是无偏的(unbiased)。
标准差
在无限总体的情况下当n/N<0.05时,可以用有限总体的公式代替有线总体。
随着样本容量的增加,均值的标准误差减小,即样本均值落在总体均值的某一特定范围内的概率也将增大。
x_bar的标准差
中心极限定理
从总体中抽取容量为n的简单随机样本,当样本容量很大时,样本均值x_bar的抽样分布近似服从正态分布。
一般情况n>30,总体严重偏态或者出现异常点时,样本容量n>50.
7.6 p_bar的抽样分布
期望
E(p_bar) = p
标准差
image.pngp_bar抽样分布的形态
p_bar = x/n, x为标记成功的试验次数,而n为固定值。因此p_bar整体是一个离散的二项概率分布。
而当np>=5并且n(1-p)>=5时,p_bar的抽样分布可以用正态分布近似。
7.7点估计的性质
1.无偏性;
2.有效性;
同样本容量n时,拥有较小的标准误差的点估计量比其他点估计量相对有效(relative efficiency)。
例如在正态总体中抽样,中位数的标准误差比均值的标准误差大将近25%,因此均值更有效。
3.一致性;
随着样本容量的增大,标准误差减小。
7.8其他抽样方法
抽样方法 | 定义 | 特性 |
---|---|---|
分层抽样 | 按照年龄/性别/职业等对样本进行分层后,按照各层的权重大小,抽取不同个数的简单随机样本。 | 每层内样本越同质,层内方差越小。那么能够用较小的样本容量得到简单随机抽样同样精准的结果 |
整群抽样 | 群内差异大,每个群都是整体的一个在小范围内的代表。依赖于群与群之间是同质的。 | 常需要较大的样本容量,常应用于区域抽样 |
系统抽样 | 总体N,等分为k个大小为N/k的个体集合,从k各个体集合中抽取等位置的一个样本,共k个。 | 当总体的个体清单是随机排序时尤其有效;可以作为简单随机抽样的替代 |
方便抽样/判断抽样 |
7.X
注意本章的点估计都基于总体标准差已知这一点
CHAP8 区间估计
8.0 区间估计的形式
点估计±边际误差
8.1
如果有95%的把握相信估计值μ落在区间(a,b)内,则有:
α:显著性水平,值为0.05
置信水平:区间是在95%的置信水平下建立
置信系数:0.95 (1-α)
置信区间:(a, b)
8.2 x_bar的区间估计:σ未知的情况
左偏和右偏对区间估计的影响
右偏:x大,s大,tα/2大。有更大的概率将μ概括
左偏则相反。
区间估计的重要公式.png
总体比率的估计基于二项分布与正态分布的近似。要求np>=5,n(1-p)>=5.
CHAP9 假设检验
9.1 原假设与备选假设的建立
定义
对总体参数做的一个尝试性假设称为原假设(H0),定义另一个与之完全相反的假设,称为备选假设。
假设形式的选择
将检验试图建立的结果设为备选假设:原假设就是用来被证伪和推翻的。
9.2第一类错误和第二类错误
定义
样本拒绝了H0,但整体上却是H0为真。
样本未拒绝H0,但整体上却是H0为假,Hα为真。但却接受了H0。
为了避免犯第二类错误,统计上在未能拒绝H0时,常不表述为接受H0,而是不能拒绝H0。这样避免了犯第二类错误的概率。但这样从统计结论上讲是非结论性的,并没有给出信任H0时的决策。因而需要进一步同时控制第二类错误的概率。
显著性水平
犯第一类错误的概率,称为检验的显著性水平
9.3总体均值:σ已知
本节前提:样本近似正态分布或者样本容量足够大。
9.3.1单侧检验
总体均值单侧检验的两种形式CHAP 11 关于总体方差的统计推断
11.1一个总体方差的统计推断
对一个总体方差的统计推断,均基于卡方检测
变量服从卡方分布基于上方变量可以得到对样本方差的估计区间
总体方差的区间估计
总体方差的检验统计量
σ0为目标方差,公式可以用于上侧/下侧/双侧 检验。
相关计算
功能 | Python | excel | tableau | R |
---|---|---|---|---|
自由度n-1,累积到概率p时所处位置 | chi2.ppf(p, n-1) | |||
自由度n-1,位置到a处的累计概率 | chi2.ppf(a, n-1) |
11.2两个总体方差的统计推断
基于F分布和F检验
F分布需要两个参数确定:n1,分子的自由度。n2,分母的自由度。
符合F分布的变量
对两个整体的分布敏感,要求两个整体为近似正态分布,且整体方差相同。
假设检验统计量
由于检验统计量F的分子为样本方差较大的s1^2,因此检验量F的数值总位于F分布的上侧。
两个总体的方差检验的汇总
这里注意的是由于将样本方差较大的总体标记总体1,且备选假设常是我们试图证明的假设,因此检验统计量常位于上方,因而一般只有上侧检验。
相关计算
功能 | Python | excel | tableau | R |
---|---|---|---|---|
分子自由度n1-1,分母自由度n2-1,累积到概率p时所处位置 | f.ppf(p, n-1,n-2) | |||
分子自由度n1-1,分母自由度n2-1,位置到a处的累计概率 | f.cdf(a, n-1,n-2) |
CHAP12 拟合度检验和独立性检验
本章内容均为卡方检验,卡方检验的假设要求每个组别的期望频数都要大于等于5。
CHAP13 实验设计和方差分析
13.1.2方差分析的假定
(2)响应变量的方差对所有总体都是相同的:[Q:为什么,以及怎么确定这个整体的方差是相同的。AT:是因为是假定的原因吗,假定如此则可以认为所有的响应变量都来自同分布的一个正态分布?]
CHAP13
13.3多重比较方法
注意LSD的值与n1,n2,n3的大小相关,如果n1,n2,n3大小相同LSD值一致。 此时可以比较xi-xj任意i,j组合时,与同一LSD值。
比较方式的第一类错误概率
实验方式的第一类错误概率 两者的关系。
13.5析因实验
处理(treatment),复制,区组,影响因子
14简单线性回归
最小二乘法最常用
SST = SSR+SSE
SSR理解为SST中被解释的部分,SSE理解为SST未被解释的部分。
判定系数越接近于1,拟合越优
判定系数
样本相关系数
样本相关系数的适用范围被限制在两变量存在线性关系的情况,但判定系数对非线性关系以及有两个或两个以上自变量的相关关系都适用。
较大的判定系数也不能得到x,y的关系在统计上是否显著的结论,这需要基于对样本容量以及对最小二乘估计量适当的抽样分布的研究[q:这是什么?]
网友评论