美文网首页机器学习理论基础
非参数方法——密度估计

非参数方法——密度估计

作者: 有机会一起种地OT | 来源:发表于2019-10-17 13:57 被阅读0次

    介绍
    第一部分 参数方法——类密度模型参数估计
    第二部分 监督学习——分类(基于似然的方法)
    第三部分 监督学习——分类(基于判别式的方法)(参数方法——判别式参数估计)
    第四部分 监督学习——回归
    第五部分 监督学习——关联规则
    第六部分 维度规约(特征的提取和组合)
    第七部分 半参数方法
    第八部分 非监督学习——聚类
    第九部分 非参数方法——密度估计
    第十部分 非参数方法——决策树实现的判别式
    第十一部分 多层感知器——非参数估计器
    第十二部分 局部模型
    第十三部分 支持向量机与核机器
    第十四部分 隐马尔科夫模型
    第十五部分 参数的贝叶斯估计
    第十六部分 集成学习——组合多学习器
    第十七部分 增强学习
    第十八部分 机器学习实验
    第十九部分 特征工程与数据预处理

    参数方法和半参数方法,假定数据取自一个形式已知的概率分布或混合分布。当输入不能做这样的假定时,可以使用非参数方法。

    在非参数估计中,只假定相似的输入有相似的输出。不对数据基础密度假定任何形式的先验参数。实现参数方法的复杂度只依赖于训练集的大小。

    非参数密度估计

    假设样本X=\{x^t\}_{t=1}^N独立地从一个未知地概率密度p(\cdot)中抽取。使用非参数方法估计概率密度为\hat{p}(\cdot)

    首先考虑一维变量,累积分布函数\hat F(x)=\frac {\#\{x^t\leq x\}} {N},其中\#\left\{x^t\leq x\right\}表示小于等于x 的训练实例。密度函数地非参数估计为

    \hat p(x)=\frac 1h\left[ \frac{\#\{ x^t\leq x+h \}-\# \{ x^t\leq x\}}{N} \right]

    h是足够小区间长度,落入该区间的实例距离x^t”足够接近“。下面使用的方法是这种方式的一些变形,使用不同的启发式策略来确定领域的实例,及它们对估计的影响。

    直方图估计

    在直方图中,输入空间为划分到 称为箱(bin)的相等区间中。给定原点x_0和箱宽度h,箱区间为[x_0+mh,x_0+(m+1)h](m是正整数或负整数)。密度估计为

    \hat p(x)=\frac{\#\{x^t与x在同个箱内\}}{Nh}

    在构造直方图时,需选定原定和箱宽度。它们直接影响估计的结果,尤其是箱宽度明显影响密度分布的形状。如果不设置原点,则可估计密度为

    \hat p (x)=\frac{\#\{x-h/2<x^t\leq x+h/2 \}}{Nh}

    这种估计方式称为质朴估计法,每个样本数据x_t只对围绕它的大小为h的区域有影响,也就是说这种影响区域是“硬的”。所以估计的密度不是连续函数,会在x^t\pm h/2处有跳跃。

    核估计

    为了得到光滑的估计,我们使用一个光滑的权重函数,称为核函数。最常用的是高斯核:

    K(u)=\frac{1}{\sqrt{2\pi}}\exp \left[ -\frac{u^2}{2}\right]

    核估计又称为Parzen窗口:

    \hat p(x)= \frac1{Nh}\sum_{t=1}^NK \left( \frac{x-x^t}{h} \right)

    核函数K(\cdot)决定影响的形状,而窗口宽度决定影响的宽度。与 上面提到的 “箱”的和一样,核估计是“凸块”的和。所有实例x^t都对x上的估计有影响,并随两者距离增大而减小。

    为了简化计算,如果|x-x^t|>3h,则取K(\cdot)为0。只要核函数处处非负,且积分为1,那么它就是合法的。\hat p (x)也就同样合法。

    k最邻近估计

    估计的最近邻方法调整光滑量使之适应数据的局部密度。光滑量有所考虑的邻近数k \ll N控制。根据距离的定义,选取距离x最近的k个实例,作为x的近邻。用d_i(x)表示距离x 第 i 近的数据实例到 x 的距离。

    k最近邻(k-nn) 密度估计为:

    \hat p(x)=\frac k {2Nd_k(x)}

    就像h=2d_k(x)的质朴估计,只是对于每个x,h不是固定的。

    k-nn估计不是连续的,并且k-nn估计不是概率密度函数,它的积分是\infty

    为了得到光滑的估计,可使用核函数,将实例的影响虽距离增加而减小,这时

    \hat p (x)=\frac 1{Nd_k(x)}\sum_{t=1}^NK\left( \frac{x-x^t}{d_k(x)}\right)

    多元数据

    给定d维观测数据X=\{\mathbf{x}^t\}_{t=1}^N,多元核密度估计为\hat p(x)=\frac1{Nh^d}\sum_{t=1}^NK\left( \frac{\mathbf{x}-\mathbf{x}^t}{h}\right),并满足\int_{R^d}K(\mathbf{x})d\mathbf{x}=1

    常用的多元高斯核为K(\mathbf{u})=\left( \frac1{\sqrt{2\pi}} \right)^d\exp \left[ -\frac{\|\mathbf{u}\|^2}{2}\right]

    但对于多维度,除非有大量数据,否则大部分箱 会为空。

    光滑参数的选择

    在非参数方法之中,关键是要选择光滑参数,比如箱宽度、核展宽h或近邻数k。

    数据中往往存在噪声,来源于未知函数的随机性。光滑之后的估计应该恰好能克服噪声带来的影响(就像在参数方法中去最小化均方误差)。太大的h或k,许多实例都对点上的估计做出贡献,从而也光滑掉了函数本身的变化,这就造成过光滑(在局部点欠拟合密度),导致了较低的方差和较大的偏倚。太小的h或k,单个实例具有较大影响,则不能光滑到噪声,这就造成欠光滑(在点局部过拟合密度),导致较大的方差和较小的偏倚。

    采用正则化函数\sum_r[r^t-\hat g(x^t)]^2+\lambda \int_{a}^{b} [\hat g^{\prime\prime}(x)]^2dx,来在验证集上交叉验证h和k或\lambda 。其中第一项是 验证集上的 误差,第二项是度量估计函数 \hat g(x)的曲率变化,惩罚曲率快速变化的估计。

    需要注意到,对每个输入x,计算它到所有其他训练实例的距离需要较大的计算复杂度,来识别局部区域。

    由于其简单性,k-nn是最常使用的非参数方法。

    非参数方法最重要的因素是所选择的距离度量。

    相关文章

      网友评论

        本文标题:非参数方法——密度估计

        本文链接:https://www.haomeiwen.com/subject/tdvgyctx.html