美文网首页
2.3 高斯变量

2.3 高斯变量

作者: golfgang | 来源:发表于2019-02-01 20:46 被阅读0次

高斯分布
N(x|\mu,\sigma^2) = \frac{1}{(2\pi\sigma^2)^\frac{1}{2}} \exp\{-\frac{1}{2\sigma^2}(x-\mu)^2\}
多元高斯分布(D维)
N(x|\mu,\Sigma) = \frac{1}{(2\pi)^\frac{D}{2}}\frac{1}{|\Sigma|^\frac{1}{2}}\exp\{-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)\}\\\Sigma是D*D的协方差矩阵,\mu是D维均值向量
本文旨在证明:\mu\Sigma为多元高斯分布的均值和方差


二次型\Delta^2
\Delta^2=(x-\mu)^T\Sigma^{-1}(x-\mu)\\\Delta叫做\mu和x之间的马氏距离,\Sigma为单位矩阵时就变成欧式距离
矩阵\Sigma可以取对称矩阵,因为任何非对称项都会在指数中消失
考虑协方差特征向量方程\\ \Sigma\mu_i=\lambda\mu_i\\ 由于\Sigma为实对称矩阵,特征值也为实数,因此特征向量可以被选成单位正交\\ \mu_i^T\mu_j = I_{ij}\\协方差矩阵\Sigma可以展开为\\\Sigma=\sum_{i=1}^D\lambda_i\mu_i\mu_i^T\\类似的,\Sigma的逆矩阵\Sigma^{-1}可以写为\\\Sigma^{-1}=\sum_{i=1}^D\frac{1}{\lambda_i}\mu_i\mu_i^T
因此二次型\Delta^2可以写为
\Delta^2 = \sum^D_{i=1}\frac{y_i^2}{\lambda_i}\\其中y_i = \mu_i^T(x-\mu)
关于y
定义y=(y_1,...y_D)^T\\有\\y=U(x-\mu)\\可知道U时正交矩阵,满足\\UU^T=U^TU=I
二次型\Delta^2y和原坐标x的对应关系


椭圆曲线表示二维空间 x=(x1,x2) 的高斯分布的常数概率密度的椭圆面,表示的概率密度为 e^{-\frac{1}{2}} ,值在 x=\mu 处计算。椭圆的轴由协方差矩阵的特征向量 \mu_i 定义,特征值(缩放因子)为 \lambda_i^\frac{1}{2}

x坐标系到y坐标系,有jacobian矩阵J
J_{ij} = \frac{\delta x_i}{\delta y_i} = U_{ij}

U正交,因此
|J^2| = |U^T|^2 = |U^T||U| = |U||U^T| = |I| = 1\\ |J|=1

又行列式|\Sigma|可以写成特征值乘积|\Sigma|^{\frac{1}{2}} = \prod^D_{j=1}\lambda_j^{\frac{1}{2}},故y坐标系下,高斯分布形式为
p(y) = p(x)|J|=\prod^D_{j=1}\frac{1}{(2\pi\lambda_j)^\frac{1}{2}}exp\{-\frac{y_j^2}{2\lambda_j}\}
以上公式是D个独立一元高斯分布的乘积,特征向量定义了一个新的旋转、平移的坐标系,这个坐标系下联合概率分布可以分解成独立分布的乘积

y坐标系下的概率分布的积分为
\int p(y)d_y=\prod_{j=1}^D {\int}^{\infty}_{-\infty}\frac{1}{(2\pi\lambda_j)^\frac{1}{2}}\exp\{-\frac{y_j^2}{2\lambda_j}\}d{y_j}=1


以上是证明\mu\Sigma为高斯分布的均值和方差的前备条件,接下来进行证明

  1. E[x]=\mu
    对连续概率密度函数求期望(积分)
    E[x] = \frac{1}{(2\pi)^\frac{D}{2}}\frac{1}{|\Sigma|^\frac{1}{2}}\int\exp\{-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)\}xdx
    z=x-\mu
    E[x] = \frac{1}{(2\pi)^\frac{D}{2}}\frac{1}{|\Sigma|^\frac{1}{2}}\int\exp\{-\frac{1}{2}z^T\Sigma^{-1}z\}(z+\mu)dz
    由于积分区域是(-\infty,\infty),根据对称性可得(z+\mu)中的z项为零,因此:
    E[x]=\mu
    也就是证明了文章一开始的D维均值向量就是多元高斯分布的均值(应该是这样??)

  2. var[x] = \Sigma
    求高斯分布的二阶矩(PS:二阶(非中心)矩是对变量的平方求期望,一阶矩就是对变量求期望)
    一元变量下,二阶矩由E[x^2]给出;对于多元高斯分布,有D^2个由E[x_ix_j]给出的二阶矩,也就是矩阵E[xx^T]
    E[xx^T]=\frac{1}{(2\pi)^{\frac{D}{2}}}\frac{1}{|\Sigma|^{\frac{1}{2}}}\int\exp\{-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)\}xx^Tdx
    z=x-\mu
    E[xx^T] = \frac{1}{(2\pi)^\frac{D}{2}}\frac{1}{|\Sigma|^\frac{1}{2}}\int\exp\{-\frac{1}{2}z^T\Sigma^{-1}z\}(z+\mu)(z+\mu)^Tdz\\=\frac{1}{(2\pi)^\frac{D}{2}}\frac{1}{|\Sigma|^\frac{1}{2}}\int\exp\{-\frac{1}{2}z^T\Sigma^{-1}z\}(zz^T+\mu\mu^T+\mu z^T+z\mu^T)dz
    由于对称性\mu z^Tz\mu^T项互相抵消,\mu\mu^T为常数,因此我们先计算zz^T
    这里的证明没有看懂,最后可以写成\\ \frac{1}{(2\pi)^\frac{D}{2}}\frac{1}{|\Sigma|^\frac{1}{2}}\int\exp\{-\frac{1}{2}z^T\Sigma^{-1}z\} zz^Tdz\\ =\frac{1}{(2\pi)^\frac{D}{2}}\frac{1}{|\Sigma|^\frac{1}{2}}\sum^D_{i=1}\sum^D_{j=1}u_iu_j^T\int \exp\{-\sum^D_{k=1}\frac{y_k^2}{2\lambda_k}\}y_iy_jdy\\=\sum^D_{i=1} u_i u_i^T \lambda_i=\Sigma\\ 因此 E[xx^T]=\mu\mu^T+\Sigma
    定义协方差var[x]
    var[x] = E[(x-E[x])(x-E[x])^T]
    由于高斯分布E[x]=\mu,结合E[xx^T],得到
    var[x]=\Sigma
    也就是文首的D*D的协方差矩阵

相关文章

  • 2.3 高斯变量

    高斯分布多元高斯分布(D维)本文旨在证明:和为多元高斯分布的均值和方差 二次型矩阵可以取对称矩阵,因为任何非对称项...

  • Python 高斯分布可视化

    要用到的库 1. 单变量高斯分布 单变量的高斯分布:随机生成的符合高斯分布的样本点与概率密度曲线 2. 多变量高斯...

  • 高斯过程回归|机器学习推导系列(二十四)

    一、概述 将⼀维高斯分布推⼴到多变量中就得到了高斯网络,将多变量推⼴到无限维,就得到了高斯过程。高斯过程是定义在连...

  • GMM基础

    一、单成分单变量高斯模型 二、单成分多变量高斯模型 若协方差矩阵为对角矩阵且对角线上值相等,两变量高斯分布的等值线...

  • 2.3.1 条件高斯分布

    多元高斯的一个重要性质: 若果两组变量是联合高斯分布,那以一组变量维条件,另一组变量同样是高斯分布。类似的,任何一...

  • 2.3 变量入门

    第2章 DAX简介 2.1 理解DAX计算2.2了解计算列和度量值2.3 变量入门2.4 DAX表达式中的错误处理...

  • 高斯混合模型与EM算法的推导

    1. 预备知识 1.1 高斯分布 高斯分布是拟合随机数据最常用的模型。单变量的高斯分布概率密函数如下: 其中 分布...

  • 4 聚类 - 高斯混合聚类

    背景 协方差与相关系数协方差描述两变量变化的相似度,相关系数除去了变量变化幅度的影响 高斯混合模型多个高斯分布混合...

  • 统计机器学习 -- 目录

    概率基础 随机变量1 随机变量2 高斯分布 连续分布 例子 scale mixture pisribarin je...

  • go语言学习大纲(一)

    课程介绍1.1. 基础环境安装1.2. 课程章节 基础语法2.1. 变量定义2.2. 内建变量类型2.3. 变量和...

网友评论

      本文标题:2.3 高斯变量

      本文链接:https://www.haomeiwen.com/subject/imgdsqtx.html