美文网首页鱼的深度学习
论文笔记-Predictive Uncertainty Esti

论文笔记-Predictive Uncertainty Esti

作者: 升不上三段的大鱼 | 来源:发表于2023-03-07 15:25 被阅读0次

    论文:https://proceedings.neurips.cc/paper/2018/file/3ea2db50e62ceefceaf70a9d9a56a6f4-Paper.pdf
    代码:https://github.com/KaosEngineer/DirichletPriorNetworks

    一句话总结:提出了 Dirichlet Prior Network,DPN分类模型直接将Dirichlet 分布参数化为概率单纯形上预测分类分布的先验;提出了不确定性度量方法。

    深度学习中的预测不确定性由三个不同的因素引起——模型不确定性、数据不确定性和分布不确定性。

    • 模型不确定性或认知不确定性衡量在给定训练数据的情况下估计模型参数的不确定性——这衡量模型与数据的匹配程度。随着训练数据量的增加,模型的不确定性可以降低 。
    • 数据不确定性或任意不确定性是由数据的自然复杂性引起的不可减少的不确定性,例如类重叠、标签噪声、同方差噪声和异方差噪声。数据不确定性可以被认为是“已知-未知”——模型理解(知道)数据并且可以自信地说明给定输入是否难以分类(未知)。
    • 分布不确定性是由于训练分布和测试分布之间的不匹配(也称为数据集偏移)引起的——这种情况经常出现在现实世界的问题中。分布不确定性是一种“未知-未知”——模型不熟悉测试数据,因此无法自信地做出预测。

    1. 不确定性估计方法

    考虑输入特征 x 和标签 y 上的分布 p(x, y) 。对于图像分类,x 对应于图像,y 对应于标签。在贝叶斯框架中,在有限数据集 D = \{x_j , y_j \}^N_{j=1} \sim p(x, y) 上训练的分类模型 P(w_c |x^* , \mathcal{D}) 的预测不确定性将来自数据 (任意的)不确定性模型(认知的)不确定性。模型对数据不确定性的估计由给定一组模型参数的类别标签的后验分布描述,模型不确定性由给定数据的参数的后验分布描述:
    P(w_c |x^* , \mathcal{D})=\int{\underbrace{P(w_c |x^* , \theta)} _{Data} \underbrace{p(\theta|\mathcal{D})}_{Model} d \theta}

    在这里,模型参数的不确定性导致了P(w_c |x^* , \theta)分布上的分布。

    我们期望的分布P(w_c |x^* , \mathcal{D})是通过边缘化参数\theta得到的,然而使用贝叶斯规则获得真正的后验p(\theta|\mathcal{D})是难以实现的,必须使用显式或隐式的变分逼近p(\theta|\mathcal{D}) \approx q(\theta)

    条件概率是指事件A在另外一个事件B已经发生条件下的发生概率。条件概率表示为:P(A|B),读作“在B条件下A的概率”,也称后验概率
    联合概率表示两个事件共同发生的概率。A与B的联合概率表示为 P(AB) 或者P(A,B),或者P(A∩B)。
    边缘概率(Marginal Probability)是某个事件发生的概率。边缘概率是这样得到的:在联合概率中,把最终结果中不需要的那些事件合并成其事件的全概率(对离散随机变量用求和得全概率,对连续随机变量用积分得全概率),这称为边缘化(marginalization)。A的边缘概率表示为P(A),B的边缘概率表示为P(B)。[1]

    此外,上面公式中的积分对神经网络来说也是难以处理的,通常用采样进行近似,使用的方法包括蒙特卡洛dropout、Langevin Dynamics或ensembling:


    每个 P(w_c |x^* , \theta^{(i)})在从 q(\theta) 采样获得的集合 {P(w_c |x ^*, \theta^{(i)} )}^M_{i=1}是分类分布μ以输入 x 为条件的类别标签 y,其中其中 \mathbf{μ} 是概率向量[P(y=w_1), \cdots,P(y=w_k)]^T

    每个 P(w_c |x^* , \theta^{(i)}) 可以被可视化为单纯形上的一个点。

    单纯形(simplex)是一个几何学中的概念,它是由 n+1 个顶点、n 个边和一个面组成的多面体,在 D = 0, 1, 2, 3 维度中,一个 Simplex 对应于一个点、一条线段、一个三角形和一个四面体。
    概率单纯性(probability simplex)是一个数学空间,上面每个点代表有限个互斥事件之间的概率分布。该空间的每条坐标轴代表一个互斥事件,k−1维单纯形上的每个点在k维空间中的坐标就是其k个互斥事件上的概率分布。每一点的坐标(向量)包含k个元素,各元素非负且和为1。[2]

    三个事件发生的概率分布形成一个二维的概率单纯形。对于相同的 x^* 这个集合是一个单纯形上的点的集合,它可以被看作是来自一个单纯形上的隐式条件分布的分类分布的样本,这些分布是通过模型参数的后验推导出的。

    通过选择适当的近似推理方案和模型先验p(\theta),贝叶斯方法旨在制作近似模型后验 q(\theta) 使得集合{P(w_c |x ^*, \theta^{(i)} )}^M_{i=1}在训练数据区域内是一致的,并且当输入 x^* 远离训练数据时变得越来越多样化。因此,这些方法的目的是在一个单纯形(上图)上制作一个隐式条件分布,其属性是:对于与训练数据相似的输入,在分布在单纯形的角落处是尖锐的;而对于分布外的输入,在单纯形上是平坦的。

    给定来自这样的分布的集合,预期分布P(w_c |x^* , \mathcal{D}) 的熵将指示预测中的不确定性。然而,不可能从熵确定这种不确定性是由于高度的数据不确定性,还是由于输入是否远离训练数据区域。因此,有必要使用集合离散(Ensemble spread)的度量,例如互信息,来评估由于模型不确定性导致的预测不确定性。这样就可以确定不确定性的来源。

    Ensemble spread 衡量集合成员之间的差异,用相对于集合平均值的标准偏差来表示。Spread 小表示不确定性低,Spread 大表示不确定性高。Spread 通常(但不总是)随着预测范围的扩大而扩大。

    然而,在实践中,对于具有数千万个参数的深度分布式黑盒模型,很难选择一个合适的模型先验和近似推理方案来制作一个模型后验,从而诱导出具有所需属性的隐含分布。这使得目前最先进的深度学习方法很难保证诱导分布的理想属性。此外,创建一个集合的计算成本也很高。

    另一种非贝叶斯的方法是通过回归和分类DNN的预测后验得出不确定性度量。在这里,DNN被显式训练以产生高熵后验分布,用于分布外的输入。这些方法很容易训练,推理也很便宜。然而,因为在类重叠区域的分布内输入或远离训练数据的分布外输入,类别的高熵后验可能表明预测存在不确定性。因此,使用这些方法不可能稳健地确定不确定性的来源。

    2. Prior Network

    在描述了现有的方法之后,本问提出了一种预测不确定性建模的替代方法,称为先验网络。如前所述,贝叶斯方法的目的是通过适当选择模型先验和近似推理方法,在单纯形上构建一个具有某些理想属性的隐含条件分布。

    本文提出利用一个DNN作为先验网络(Prior Networks),并训练它表现得像贝叶斯方法中的隐式分布。

    具体来说,当它对自己的预测有信心时,Prior Networks应该产生一个以单线的一个角为中心的尖锐分布。对于一个具有高度噪音或类别重叠(数据不确定性)的区域的输入,Prior Networks应该产生一个集中在单线中心的尖锐分布,这相当于对预测类别标签(已知-未知)的扁平分类分布有信心。最后,对于 "非分布 "的输入,Prior Networks 应该在单线上产生一个平坦的分布,表明在x 到y的映射中存在很大的不确定性(未知-未知)。


    在贝叶斯框架中,分布不确定性,或由于测试和训练数据分布不匹配导致的不确定性,被认为是模型不确定性的一部分。在这项工作中,它将被视为独立于数据不确定性或模型不确定性的不确定性来源。 Prior Networks 将被明确构建以捕获数据不确定性和分布不确定性。在 Prior Networks 中,数据不确定性由点估计分类分布 μ 描述,分布不确定性由预测分类 p(μ|x^*, \theta) 上的分布描述。 Prior Network 的参数 \theta必须封装有关域内分布和决策边界的知识,决策边界将域内区域与其他所有区域分开的。

    根据上面的设定,我们的期望分布变成了:


    在这个公式中,数据、分布和模型的不确定性现在都由一个可解释的概率框架内的单独建模。不确定性之间的关系是明确的:模型不确定性影响分布不确定性的估计,而分布不确定性又影响数据不确定性的估计。

    这是因为很大程度的模型不确定性将产生p(μ|x^*, \theta) 的巨大变化,μ的巨大不确定性将导致数据不确定性估计的巨大不确定性。因此,模型的不确定性会影响对数据和分布不确定性的估计,而分布不确定性会影响对数据不确定性的估计。这就形成了一个分层模型,现在有三层不确定性:类别的后验、每个数据的先验分布和模型参数的全局后验分布。

    考虑在上面公式中边缘化 μ,由此重新得到:

    考虑边缘化 \theta,得到:

    为简单起见,本文的工作假设在适当的正则化和训练数据规模下,参数的点估计是足够的,即:


    2.1 Dirichlet Prior Networks

    一个用于分类的先验网络对单纯形上的分布进行参数化,例如 Dirichlet、Dirichlet 分布的混合或 Logistic-Normal 分布。在这篇文章中,狄利克雷分布因其易处理的分析特性而被选中。狄利克雷分布是分类分布的先验分布,由其集中参数 \mathbf{\alpha} 参数化,其中 \alpha_0 是所有 \alpha_c 的总和,称为狄利克雷分布的精度。\alpha_0 的值越高,分布越尖锐。

    对Dirichlet进行参数化的先验网络将被称为Dirichlet Prior Networks(DPN)。一个DPN将生成Dirichlet分布的参数\alpha↵,类别标签的后验将由 Dirichle 的平均值给出:


    如果DPN使用指数输出函数,其中\alpha_c = e^{z_c},那么标签的预期后验概率w_c由softmax的输出给出:

    因此,用于分类的标准DNN与softmax输出函数可以被视为预测Dirichlet先验下的预期分类分布。然而,平均值对任意缩放的\alpha_c 不敏感。因此,控制Dirichlet尖锐程度的精度 \alpha_0 在标准交叉熵训练下是退化的。因此,有必要改变损失函数来显示训练DPN,根据输入数据在预期分类周围产生尖锐或平坦的先验分布。

    2.2 Dirichlet Prior Networks 训练

    DPN 以多任务方式进行显式训练,以最小化模型与侧重于分布内数据的尖锐 Dirichlet 分布之间的 KL 散度,以及模型与分布外数据的平坦 Dirichlet 分布之间的 KL 散度。


    3. 不确定性度量

    本文将不确定性的度量分为了四类。第一类是给定预期的预测分类P(w_c |x^* ; \mathcal{D})公式的完全边缘化,推导出不确定性的度量,可以用参数\hat{\theta}的点估计或贝叶斯MC集合来近似。
    第一个度量是预测类别的概率,或最大概率,它是对预测的置信度的衡量:

    第二个度量是预测分布的熵。它的行为类似于最大概率,但表示整个分布中包含的不确定性:


    预期分布的最大概率和熵可以看作是预测中总不确定性的度量。

    第二类度量考虑边缘化μ。分类标签 y 和模型参数 \theta 之间的互信息 (MI) 是对整体离散的度量{P(w_c |x ^*, \theta^{ (i)} )}^M_{i=1} 评估由于模型不确定性导致的预测不确定性。因此,MI 隐式地捕获了分布不确定性的元素。 MI 可以表示为总不确定性的差异,由预期分布的熵捕获。预期数据的不确定性,由集合中每个成员的预期熵捕获。

    第三类度量考虑将公式中的\theta边缘化。 这一类中的第一个度量是yμ之间的相互信息,其公式形式与y\theta之间的MI完全相同,但现在的离散度是由于分布不确定性,而不是模型不确定性。

    第三类的另一个不确定性度量是 DPN 的微分熵。当所有分类分布都是等概率时,换句话说,当狄利克雷先验的样本种类最多时,这个度量会最大化,此时狄利克雷分布是平坦时。微分熵非常适合测量分布的不确定性,因为即使 Dirichlet 先验下的预期分类具有很高的熵,它也可能很低,并且还捕获数据不确定性的元素。

    最后一类度量使用完整的公式,通过μ\theta之间的MI评估模型不确定性导致的p(μ|x^*; \theta)的扩散,可以通过贝叶斯集合方法计算出来。

    总结

    这项工作:

    • 描述了以前在不确定性来源范围内的预测性不确定性估计工作的局限性,并建议将分布外(OOD)输入作为一个单独的不确定性来源,称为分布性不确定性。
    • 这项工作提出了一个新的框架,称为先验网络(PN),它允许在一个一致的概率可解释框架内分别处理数据、分布和模型不确定性。这些PN的一个特殊形式被应用于分类,即Dirichlet Prior网络(DPN)。在MNIST和CIFAR-10数据集的OOD检测任务中,DPNs被证明比MC Dropout和标准DNNs能产生更准确的分布不确定性估计。DPNs在错误分类检测任务上的表现也优于其他方法。
    • 提出了一系列的不确定性测量方法,并在它们评估的不确定性类型的背景下进行了分析。注意到,总不确定性的度量,如预测分布的最大概率或熵,在错误分类检测上产生了最好的结果。DPN的差异熵最适合于OOD检测的不确定性测量,特别是当类别不太明显时。这在合成实验和噪声干扰的MNIST任务中都得到了说明。DPNs的不确定性测量可以在测试时进行分析计算,相对于集合方法,减少了计算成本。

    参考
    [1] 条件概率分布
    [2] 随机化算法

    相关文章

      网友评论

        本文标题:论文笔记-Predictive Uncertainty Esti

        本文链接:https://www.haomeiwen.com/subject/wxfpldtx.html