美文网首页随机过程
用高斯过程的动机

用高斯过程的动机

作者: 小幸运Penny | 来源:发表于2019-04-10 17:51 被阅读0次

以前接触高斯函数觉得很奇怪,在许多领域里面高斯过程都是不可分割的一部分,图像里面有高斯滤波,卡尔曼滤波用的也是高斯等等,。在上了随机过程这门课以后,张灏老师非常详细的讲解了使用高斯过程的动机,最起码现在从一头雾水成了一知半解了吧,这部分内容还是挺有趣的,所以就将它记录一下,免得忘记了。课堂上,老师从三个方面讲述了学习高斯过程的动机。

一、从中心极限定理出发(Central Limit Theorem)

首先说明一下什么是大数定律和中心极限定理。

X_{1}、X_{2}、...、X_{n}分别是独立同分布的随机变量,简称i.i.d

大数定律为,当样本数量趋近于无穷大的时候,他们的和除以总数趋近于均值:\lim\limits_{n \to \infty} \frac{X_{1}+X_{2}...+X_{n}}{n} = E[X]

中心极限定理说明当样本数量趋近于无穷大的时候,他们的和除以根号n趋近于一个均值为0,方差为1的高斯分布,\lim\limits_{n \to \infty} \frac{X_{1}+X_{2}+...+X_{n}}{\sqrt{n} } \rightarrow N(0,1),当然均值和方差的值是由于随机变量决定的,即E[Xi]=0Var(Xi)=1

如何证明这两个定理呢?这里需要引入一个特征函数 \Phi_{X}(\omega )=E[\exp(j\omega X)] =\int_{R^n}f_X(x)\exp(j\omega x)dx,了解傅里叶变换的人可以知道这就相当于对f_X(x)做傅里叶反变换。

Y=X_1+X_2+...+X_n,所以

\Phi _Y(\omega )=E(\exp(j\omega (X_1+X_2+...+X_n))\\=E(\prod_{k=1}^n \exp(jwX_k))\\=\prod_{i=1}^kE(\exp(jwX_k))\\=\prod_{i=1}^k\Phi_{X_{k}}(\omega )

可以看到随着样本数量的增多,Y的特征函数随机性是在增加的。

大数定律的证明

\Phi _{\frac{X_{1}+X_{2}+...+X_{k}}{n} }(\omega )=\prod_{i=1}^k\Phi_{\frac{X_{k}}{n} }(\omega )=[\Phi_{\frac{X_{k}}{n} }(\omega )]^n   

\Phi_{\frac{X_{k}}{n} }(\omega )进行泰勒展开:

\Phi_{\frac{X_{k}}{n} }(\omega )=E(\exp(j\omega \frac{X_{k}}{n}))=E(1+j\omega \frac{X_{k}}{n}+O(\frac{1}{n}))\\ =1+j\omega \frac{\mu }{n}+O(\frac{1}{n}) 

其中\mu 是样本的均值,根据\lim\limits_{x \to \infty}(1+\frac{1}{x}  )^x=e,所以可以得出在n趋向于无穷的情况下:

[\Phi_{\frac{X_{k}}{n} }(\omega )]^n=(1+j\omega \frac{\mu }{n}+O(\frac{1}{n}))^n\rightarrow \exp(j\omega \mu )=\Phi _\mu (\omega )

易得:\frac{X_{1}+X_{2}+...+X_{k}}{n} \rightarrow \mu

中心极限定理的证明:

前面一部分与上面的正面相似,只不过就是将n变成了根号n,为\Phi_{\frac{X_{k}}{\sqrt{n} } }(\omega ),对其进行泰勒展开,不过这回展开得到二阶项,为:

\Phi_{\frac{X_{k}}{\sqrt{n} } }(\omega )=E(1+\frac{j\omega{X_k} }{\sqrt{n} }+\frac{1}{2}  (\frac{j\omega{X_k} }{\sqrt{n} })^2+O(\frac{1}{n} )\\=1+j\omega \frac{\mu }{\sqrt{n} }-\frac{\omega^2}{2n}   +O(\frac{1}{n} )  

由于前面规定了均值为0,方差为1,所以上式的第二项为0,可以得出:

(\Phi_{\frac{X_{k}}{\sqrt{n} } }(\omega ))^n=(1-\frac{\omega^2}{2n}   +O(\frac{1}{n} ))^n\rightarrow \exp(-\frac{\omega^2}{2})          

现在就需要证明 \exp(-\frac{\omega^2}{2})是不是一个高斯过程的特征函数了,证明过程如下:

设随机变量X~N(\mu ,\sigma ^2),则

\Phi _X (\omega )=\int_{R^n}f_X(x)\exp(j\omega x)dx=\frac{1}{\sqrt{2\pi } \sigma } \int_{R^n}\exp(-\frac{(x-\mu )^2}{2\sigma ^2}+j\omega x) dx   

将上式积分里面的e的指数进行配方,配方的要求是将有x的项都放在一起,配方的结果如下:

\Phi_X(\omega ) =\frac{1}{\sqrt{2\pi } \sigma } \int_{R^n}\exp(-\frac{1}{2\sigma ^2 }(x-\mu -j\sigma ^2\omega )^2+j\omega \mu -\frac{1}{2}\sigma ^2\omega ^2)dx  \\=\exp(j\omega \mu -\frac{1}{2}\sigma ^2\omega ^2)\frac{1}{\sqrt{2\pi}\sigma } \int_{R_n}\exp( -\frac{1}{{2\sigma ^2} }(x-\mu -j\sigma ^2\omega )^2)dx

可以看到积分里面恰好是一个高斯函数,则它的积分为\sqrt{2\pi}\sigma ,则后面的积分加系数为1,综上所述:

\Phi_X(\omega ) =\exp(j\omega \mu -\frac{1}{2}\sigma ^2\omega ^2)                     

所以若X的均值为0,方差为1,高斯过程的特征函数刚好就是\exp(-\frac{\omega^2}{2}),那么就可以得到结论就是中心极限定理的值趋近于高斯分布。这也可以说明了当随机变量的总和除以n的时候,变量的随机性都给抹杀了,而除以根号n,变量之间的关系还是存在的,并没有将随机性全部给抹去。

二、从最大熵的角度出发(Maximum Entropy)

熵在信息论里面是信息的度量,熵越大,信息的不确定性也就越大,熵的定义如下:

H(X)=-\int_{-\infty}^{\infty} f_X(x)logf_X(x)dx   一般对数以2为底               

在概率分布里面,均匀分布的时候熵是最大的,但是在实际过程中,如果自变量是从负无穷到正无穷,那么均匀分布就不好表示了,所以这里需要求一个最大熵,在自变量的区间从负无穷到正无穷的时候,熵的最大值,也就是最大熵的分布是怎样的呢?最大熵在不同的约束下有不同的最大分布,这里我们就约束到了二阶矩,最大熵就是求满足如下条件的所有概率密度函数f的熵h(f)的最大值

1、f(x)\geq 0,当x在支撑集外部时等号成立

2、\int_{S}f(x)dx=1

3、\int_{S}xf(x)dx=\mu

4、\int_{S}x^2f(x)dx=\sigma^2

证明过程如下:

X\in (-\infty,+\infty) ,E(X)=\mu,Var(X)=\sigma^2f_X(x)是X的概率密度函数,使用拉格朗日数乘法可以得到下式:

G(f)=-\int_{R}f_X(x)logf_X(x)dx+\lambda _1(\int_{-\infty}^{\infty}f_X(x)dx-1)+\lambda _2(  \int_{-\infty}^{\infty}xf_X(x)dx-\mu)+\lambda( _3\int_{-\infty}^{\infty}x^2f_X(x)dx-\sigma^2)

一般这个时候就是对上面的公式求导找出导数为0的点,这里G(f)不仅与f_X(x)有关,与其导数和x均有关,就相当于一个泛函,函数的函数,所以直接求导就不是那么容易的一件事情了,这里就使用了变分的方法。

将H(t)设置成为G(f_0+tg)的函数,f_0是极值函数或者是极值曲线(即让G达到最大值的函数),g是一个可微函数,t是一微量的参变量,其中:

H(0)=G(f_0)\geq G(f_0+tg)=H(t)

所以在t=0处的导数为:\frac{\partial H(t)}{\partial t}|_{t=0}=0  (因为f_0为极大值),那么  (对数是以e为底)

\frac{\partial H(t)}{\partial t} = \frac{\partial}{\partial t}(-\int(f+tg)log(f+tg)+\lambda_1(\int(f+tg)-1)+\lambda_2(\int x(f+tg)-\mu)+\lambda_3(\int x_2(f+tg)-\sigma^2)

=-\int glog(f+tg)+\int g+\lambda_1\int g+\lambda_2\int xg+\lambda_3\int x^2g    

由于导数是在t=0的时候为0,所以将t=0代入上式:

\frac{\partial H(t)}{\partial t}|_{t=0}=\int g(-log f+1+\lambda_1+\lambda_2x+\lambda_3x_2)=0

\implies f=\exp(\lambda_1+\lambda_2x+\lambda_3x^2)

可以得到在约束到二阶矩的最大熵为高斯分布,不过一定得注意最大熵并不一定都是高斯分布,他与概率密度函数的约束有关。

三、从分子运动的角度(Molecular Dynamic)

想象一下比如说有n个分子,在一维的空间中运动,你会使用什么样的模型来描述它呢?由于分子之间存在相互碰撞,如果仅仅研究单个分子的运动是很难的,因为分子之间是相互影响的。爱因斯坦在1905年就提出了一个用统计模型来描述分子运动的方法。设一个模型为:


\Phi (\Delta )=
\begin{cases}
\Phi (\Delta )=\Phi (-\Delta)\\
\int_{-\infty}^{\infty}\Phi (\Delta )d\Delta  =1
\end{cases}

则分子的分布为:

f(x,t+\tau )=\int_{-\infty}^{\infty}\Phi (\Delta )f(x+\Delta ,t)d\Delta (1)

分别对两个变量进行泰勒展开:

f(x,t+\tau )\cong f(x,t)+\frac{\partial f}{\partial t} \tau

f(x+\Delta ,t)=f(x+t)+\frac{\partial f}{\partial x} \Delta +\frac{1}{2}\frac{\partial ^2f}{\partial x^2}   \Delta ^2

将两式分别带入方程(1)可以得到:

\frac{\partial f}{\partial x} =(\frac{1}{2\tau }\int_{-\infty}^{\infty} \Delta ^2\Phi (\Delta )d\Delta )\frac{\partial ^2f}{\partial x^2}

这是一个扩散方程,\frac{\partial f}{\partial x}=D\frac{\partial ^2f}{\partial x^2} ,通过它可以得到:

f(x,t)=\frac{1}{\sqrt{4Dt} }\exp(-\frac{x^2}{4Dt})

这就是一个高斯函数,由于自己的物理实在是不行,这个扩散方程就不细讲了。不过,可以知道的是许多噪声都来源于分子的热运动,所以这也能解释为何有时候噪声的设定会喜欢用高斯了。

总结

以上就是课上老师所讲的使用高斯过程的原因,当然里面还有许多细节部分还是需要推敲的,但我觉得能理解这些大概的就可以了,高斯过程是一个很奇妙的过程,它的性质也有很多,最重要的还是得去理解它本身的性质。后期有时间再记录高斯过程这个性质和它的变体吧。

参考

张灏老师的随机过程

相关文章

  • 用高斯过程的动机

    以前接触高斯函数觉得很奇怪,在许多领域里面高斯过程都是不可分割的一部分,图像里面有高斯滤波,卡尔曼滤波用的也是高斯...

  • 2019-03-11

    高斯过程 高斯分布: Q函数与erfc函数 联合高斯:独立高斯的线性组合 高斯过程:随机过程中的任意多个时刻的随机...

  • 如何预测周期函数

    如何预测周期函数 用SVM可以预测,但kernel和kernelwidth必须要选好。用高斯过程(用RBF ker...

  • 吴恩达机器学习-Chapter 16 异常检测

    目的:介绍无监督学习异常检测算法,主要是用高斯分布(正态分布)数据模型 1. Lesson 123 问题动机  ...

  • 高斯过程回归|机器学习推导系列(二十四)

    一、概述 将⼀维高斯分布推⼴到多变量中就得到了高斯网络,将多变量推⼴到无限维,就得到了高斯过程。高斯过程是定义在连...

  • 高斯过程回归

    高斯过程回归 一、高斯分布   高斯分布(正态分布)是一种非常常见的连续概率分布。其在统计学上十分重要,经常用在自...

  • 第三章 随机过程

    1、随机过程的基本概念 2、平稳、高斯、窄带过程的统计特性 3、正弦波加窄带高斯过程的统计特性 4、随机过程通过先...

  • 动机过程

    需要➡️心理紧张➡️动机➡️行为➡️目标➡️需要满足,紧张解除➡️新的需要 2018/10/23

  • 吴恩达机器学习——异常检测

    本章内容:· 15.1 问题的动机· 15.2 高斯分布· 15.3 算法· 15.4 开发和评价一个异常...

  • 短短的心情

    -学习东西也有个过程,现在再看physical chemistry, 把近期用高斯以及对分子结构的理解加进去,忽然...

网友评论

    本文标题:用高斯过程的动机

    本文链接:https://www.haomeiwen.com/subject/kjqwiqtx.html