美文网首页
高斯分布与多元高斯分布

高斯分布与多元高斯分布

作者: 臻甄 | 来源:发表于2022-04-11 18:21 被阅读0次

    均值 \mu, 标准差 \sigma
    一元高斯分布和标准高斯分布绘图:https://www.cnblogs.com/bingjianing/p/9117330.html

    一元高斯分布

    • 高斯分布:x \sim N(\mu, \sigma^2)
    • 概率密度函数:P(x) = {1 \over \sqrt{2\pi} \sigma} exp(-{(x - \mu)^2 \over 2 \sigma^2})
    • 似然函数 L(\mu, \sigma^2) = \prod_{i=1}^N {1 \over \sqrt{2 \pi} \sigma} e^{-{(x_i - \mu)^2 \over 2\sigma^2}} = (2\pi \sigma^2)^{- \frac n2} e^{- \frac 1{2\sigma^2}\sum_{i=1}^{n}(x_i-\mu)^2}
    • 对数似然函数 ln L(\mu, \sigma^2) = -\frac n2 ln(2\pi)-\frac n2 ln(\sigma^2)-\frac 1{2\sigma^2}\sum_{i=1}^{n}(x_i - \mu)^2
      求偏导为0来解方程
      \mu_MLE = \frac 1n \sum_{n=1}^{n}x_i
      \sigma_{MLE}^2 = \frac 1n \sum_{n=1}^{n}(x_i - \mu_{MLE})^2
    • 标准一元正态分布: P(z) = {1 \over \sqrt{2 \pi}} e^{(- {z^2 \over 2})}z={x-\mu \over \sigma}

    多元高斯分布

    • 多元变量: X = (x_1, x_2, ..., x_d)^T
    • 多元高斯分布的形式:
      \pi_\theta ( \mathbf{x | \mu,\Sigma } ) = {1 \over {\sqrt{(2\pi)^k \prod_{i=1}^{i=d} \sigma_i^2}} } exp \left( - \frac 12 \prod_{i=1}^{i=d} {(x_i - \mu_i)^2 \over \sigma_i^2} \right)

    可以简化为:
    \mathcal{N}( \mathbf{x | \mu,\Sigma } ) = {1 \over (2\pi)^{D/2}}{1 \over |\mathbf{\Sigma}|^{1/2} } exp \left\{ - \frac 12 (\mathbf{x}- \mathbf{\mu}) \mathbf{\Sigma}^{-1} (\mathbf{x}- \mathbf{\mu}) \right\}

    \mathbf{\Sigma}是一个对称矩阵:
    \begin{pmatrix} \sigma_1^2 & 0 & \cdots & 0 \\ 0 & \sigma_2^2 & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & \sigma_d^2 \\ \end{pmatrix}

    最大似然估计

    • 最大似然估计法,就是利用已知的样本结果信息,反推最大可能(最大概率)产生这个结果的模型参数值,极大似然估计提供了一种给定观察数据来评估模型参数的方法,即模型已定,参数未知。


      最大似然估计的通俗理解
    • 最大似然估计一个重要前提假设是:数据样本之间是独立同分布的。在用最大似然估计解高斯分布参数,似然函数,即联合概率密度函数:
      L(\theta) = P(D|\theta) = p(x_1,x_2,...,x_N|\theta) = \prod_{i=1}^{N}p(x_i|\theta)
      联合概率密度函数p(D|\Theta)称为相对于数据集D的参数 \Theta的似然函数,先再就是要求满足似然函数最大的参数值,也就是求使得该组样本出现的概率最大的\Theta
      \hat{\theta} = arg \max_{\theta} L(\theta) = arg \max_\theta \prod_{i=1}^{N}p(x_i|\theta)
      十几种为了方便分析,都会将其定义为对数似然函数
      \hat{\theta} = arg \max_{\theta} lnL(\theta) = arg \max_\theta \prod_{i=1}^{N}lnp(x_i|\theta)
      知道了上式,我们就可以根据一批数据集X来用最大似然估计求解参数 \Theta
      参考:https://zhuanlan.zhihu.com/p/356850764

    两个多元高斯分布之间的KL散度

    \begin{align} D_{KL}(q(z|x)||p(z)) & = \int q(z|x) \log \frac {q(z|x)}{p(z)}dz \\ &= \int q(z|x) \{ \log q(z|x) - \log p(z) \} dz \\ &= \int q(z|x) \log q(z|x)dz - \int q(z|x) \log p(z)dz \\ &= \left( - \frac J2 \log(2\pi) - \frac 12 \sum_{j=1}^{J}(\log \sigma_{1,j}^2 +1) \right) - \left( - \frac J2 \log (2\pi) - \frac 12 \sum_{j=1}^{J} \log \sigma_{2,j}^2 - \frac 12 \sum_{j=1}^{J} \left[ {\sigma_{1,j}^2 \over \sigma_{2,j}^2} + {(\mu_{1,j} - \mu_{2,j})^2 \over \sigma_{2,j}^2} \right] \right) \\ &= - \frac 12 \sum_{j=1}^{J} \left( \log {\sigma_{1,j}^2 \over \sigma_{2,j}^2} - {\sigma_{1,j}^2 \over \sigma_{2,j}^2} - {(\mu_{1,j} - \mu_{2,j})^2 \over \sigma_{2,j}^2} + 1 \right) \\ \end{align}

    在变分自编码中,q(z) \sim N (\mu, \sigma), p(z) \sim N(0,1),则有

    \begin{align} D_{KL}(q(z|x)||p(z)) & = \int q(z|x) \log \frac {q(z|x)}{p(z)}dz \\ &= \int q(z|x) \{ \log q(z|x) - \log p(z) \} dz \\ &= \int q(z|x) \log q(z|x)dz - \int q(z|x) \log p(z)dz \\ &= \left( - \frac J2 \log(2\pi) - \frac 12 \sum_{j=1}^{J}(\log \sigma_j^2 +1) \right) - \left( - \frac J2 \log (2\pi) - \frac 12 \sum_{j=1}^{J}(\sigma_j^2 + \mu_j^2) \right) \\ &= - \frac 12 \sum_{j=1}^{J} \left( 1 + \log \sigma^2 - \sigma_j^2 - \mu_j^2 \right) \\ \end{align}

    两个多元高斯分布之间的 对数概率 logπ

    log \pi_{\theta}(x) = - \frac 12 \left( \sum_{i=1}^{i=d} \left( {(x_i - \mu_i)^2 \over \sigma_i^2} \right) + k log(2\pi) \right)

    多元高斯分布的

    h(x_1, x_2, ...,x_n) = h(\mathcal{N}_n(\mu, K)) = \frac 12 \log (2\pi e)^{n}|K| 其中 K 是协方差

    相关文章

      网友评论

          本文标题:高斯分布与多元高斯分布

          本文链接:https://www.haomeiwen.com/subject/glbysrtx.html