若n个相互独立的随机变量ξ₁,ξ₂,...,ξn ,均服从[标准正态分布](也称独立同分布于标准[正态分布],则这n个服从标准正态分布的随机变量的平方和构成一新的随机变量,其分布规律称为卡方分布(chi-square distribution)。
其自由度n为独立随机分布的个数
性质:
(1):均数为自由度n。
(2):方差为两倍自由度2n
注意:
这里要求这些随机变量都是标准正态分布,即均值为0方差为1.
最基本的计算卡方值的公式是
其中O是观察值,E是期望值。
但这儿想讨论的问题是,如果不是标准的正态分布。那么非标准的正态分布的平方和构成的非标准的卡方分布,他们的均值和方差是多少?
稍微一般点的卡方分布是每个变量符合均值为但是方差仍然为1的正态分布,那么他们的平方和所符合的卡方分布的均值和方差为(资料源于维基百科 Noncentral chi-squared distribution - Wikipedia
)
其中即是独立变量的个数,而。即各个独立变量的均值的平方和。假设独立变量的均值为0,方差不为1,如果我们仍然能得到上面的公式的话,由于为0,方差和均值就和最基本的卡方分布相同。但是发现这个问题比想象中复杂很多。
首先卡方分布是一种特殊的伽马分布(gamma distribution)。gamma分布具体见wiki百科
Gamma distribution - Wikipedia
简单来说,gamma分布由如下两个参数决定shape parameter 和scale parameter 决定。如果一个变量分布服从gamma分布,那我们把它记为
下面从标准正态分布讲到gamma分布和它的关系。如果一个变量符合标准正态分布,我们把它记为
那这个变量的平方符合自由度为1的卡方分布,记为
同时,自由度为1的卡方分布为的卡方分布。即
。如果个独立变量服从标准高斯分布,那么他们的平方和服从自由度为的卡方分布即
同时符合Gamma分布
这儿体现出了Gamma函数的一个性质。在相同的情况下,Gamma分布是可加的。因为每一个变量的平方都符合Gamma分布
如果不同,就不能这样。
如果我们拥有个服从均值为0,方差为的独立变量,即。
那么有(参考 Distribution of sum of squares of normals that have mean zero but not variance one? 的第一个回答
)
第3到第4个式子用的是gamma分布scaling的性质(已在Matlab里验证),具体见上面wiki里scaling的部分。由于是scaling参数的不同,就意味着个服从均值为0,方差为的独立变量的平方和并不能很简单地相加写为另一个Gamma分布什么的。参考了stack exchange的问题 Generic sum of Gamma random variables
其中top回答者whuber的回答大概表示会表示成一个有限gamma分布的混合。即一堆gamma分布相加。Paul Harrison的回答表示可以用一个Gamma函数近似,根据他提供的公式求得新的和。
Gamma函数的均值的是,方差是。所以个服从标准正态分布的独立变量的均值是,即变量个数。但是当他们的方差不同时,我们不能直接说个服从均值为0,方差为的独立变量的平方和服从一个简单的Gamma分布,均值是n了,因为Gamma在相同的条件下可加的性质不能使用了。
如果均值不为0.
就更麻烦了。至少得让变量减去均值才能开始分析吧。
网友评论