在之前的一篇文章[机器学习-Bayesian概念学习,简书]中提到了一组常用的共轭分布,beta分布-二项分布,它们都是离散型的概率分布,而一组更一般的离散型共轭分布为Dirichlet分布-多项分布。共轭分布一般用在我们需要给参数加先验条件时,为了使运算式子保持统一的形式从而简化计算,通常我们会采取共轭分布,更一般地,可以考虑共轭分布的线性组合,同时兼顾了先验分布的合理性。
而在常见的连续概率分布-高斯分布中,也经常会有类似的讨论。下面分享一些我学习高斯模型的体会。一维的高斯分布可能都不陌生,这里直接从更一般的多维高斯模型出发。
多维高斯分布其中在指数中出现的Σ为对称正定矩阵,故它的所有特征值都是正的,所有特征向量都互相正交,可以用来做度量,前后乘以(x-μ)就可以看做是||x-μ||_Σ的平方,即Σ范数的平方,由此可看出它是一维高斯分布的推广,而当Σ为单位矩阵时,Σ范数便回到了我们熟悉的二范数。
假如Σ有特征值λ和特征向量u,则Σ的逆可以有如下分解
From: Murphy同时||x-μ||_Σ可以写为
From: Murphy其中yi=<ui,x-μ>,即为x-μ在第i个特征向量方向上的投影。由上式可以看出,λi越大,则在第i个方向上的影响越小,同时λi越小,则相对来说在第i个方向上的影响越大。放到下图来看,若由μ出发的向量y越靠近方向u1方向,则范数越小,越靠近u2方向,则范数越大。图中所示的红色椭圆是一个“等高线”,椭圆上的每一点在Σ范数下与μ的距离都相同,椭圆的轴长关系对应于λ的大小,即λ越大,相应方向的轴长越大。
From: Murphy当Σ为单位矩阵I时,或者更一般地,Σ的特征值都相等,则椭圆的各方向轴长都相等,从而多维高斯分布的等高线为圆,而这也对应于一维的情况。
Reference:
Machine Learning-A Probabilistic Perspective, Kevin P. Murphy, 2012.
网友评论