美文网首页鱼的深度学习
如何实现可信 AI:不确定性估计

如何实现可信 AI:不确定性估计

作者: 升不上三段的大鱼 | 来源:发表于2023-03-09 14:56 被阅读0次

上一篇:如何实现可信 AI:可解释性

如果让深度学习模型为错误的预测给出一个较高的不确定性,我们就能判断一这个预测的可信程度。也就是说,模型知道自己不知道。

不确定性可以分为两类:

  • 数据的不确定性,也被称为偶然(Aleatoric)不确定性,它描述的是数据中内在的噪声,即无法避免的误差,这个现象不能通过增加采样数据来削弱。因此解决这个问题的方法一般是提升数据采集时候的稳定性,或者提升衡量指标的精度以囊括各类客观影响因素。
  • 模型的不确定性:也被称为认知(Epistemic)不确定性。它指出,模型自身对输入数据的估计可能因为训练不佳、训练数据不够等原因而不准确,与某一单独的数据无关。因此,认知不确定性测量的,是训练过程本身所估计的模型参数的不确定性。这种不确定性是可以通过有针对性的调整(增加训练数据等方式)来缓解甚至解决的。

在一些不确定性著作中,还提到了一种特殊的不确定性——分布不确定性,它是指当输入属于与训练数据不同的分布时(OOD)模型预测的不确定性。在深度学习中,当模型遇到的输入与训练时的输入有很大不同时,就会发生这种情况。分布不确定性可能属于认知不确定性。

分类和回归模型的数据、模型和分布不确定性的可视化[1]

深度学习网络不确定性估计方法包括:

  • 确定性方法。通过评估模型对不同输入和扰动的鲁棒性来估计不确定性。这些方法通常假设模型是确定性的,而不确定性可以根据模型对不同输入的输出的变化来估计。常见的确定性方法包括:
    • 内部方法: Prior Networks, Evidential Neural Networks, Gradient penalties
    • 外部方法:Gradient Metrices, Additional Network for Uncertainty, Distance to Training Data
  • 贝叶斯神经网络(BNNs)。BNN是一种深度学习模型,通过将模型的参数表示为随机变量来明确地模拟不确定性,使得BNN可以通过量化给定输入的可能输出的分布来估计不确定性,而不仅仅是一个单一的点估计。
    • 变分推理:变量推理的应用, 随机变量推理,归一化流,蒙特卡洛dropout
    • 采样方法:随机MCMC
    • 拉普拉斯近似:对角线信息矩阵,克罗内克因式分解,稀疏信息矩阵
  • 集成方法。深度学习中不确定性估计的集成方法涉及使用多个模型进行预测,然后汇总预测结果来估计不确定性,其中个体预测的方差作为不确定性的度量。这可以通过组合多个模型的输出,或通过训练一组模型来进行预测来完成。
    • 训练策略:随机初始化/数据打乱;Bagging/Boosting,单次训练运行
    • 减少成员:模型修建,蒸馏
    • 权重分享: Sub-Ensembles,Batch-Ensembles
  • 测试时间数据增强。用不同的扰动增强测试数据,评估模型在这些被扰动的数据的输入。模型通过评估其预测对不同输入的变化来估计自己的不确定性。
    四种不确定性估计方[1]

单一确定性方法

对于确定性神经网络,参数是确定性的,前向传递的每次重复都会产生相同的结果。一些方法通过构建和训练模型来量化不确定性,可以称之为内部不确定性量化方法;另一些通过加入额外的部件来估计网络预测的不确定,可以被称为外部不确定性量化方法。

内部不确定性量化方法

许多内部不确定性量化方法遵循的理念是预测分布的参数,而不是直接进行逐点最大后验估计。通常,这类网络的损失函数考虑了真实分布和预测分布之间的预期差异。输出的分布可以被解释为模型不确定性的量化,试图模仿网络参数的贝叶斯建模的行为。然后将预测作为预测分布的期望值给出。

对于分类任务,输出通常表示类别概率,是softmax 函数的结果。这些概率已经可以解释为对数据不确定性的预测。然而,人们广泛讨论的是,神经网络通常过于自信,softmax 输出通常校准不当,导致不确定性估计不准确。结果表明,网络使用ReLu 和 softmax 输出的组合导致网络随着分布外样本与训练集的距离增大而更加自信。[3] 描述并研究了这种现象。

其他的几种分类方法遵循类似的想法,即考虑对数幅度,但使用 Dirichlet 分布。 Dirichlet 分布是分类分布的共轭先验,因此可以解释为分类分布上的分布。狄利克雷分布的密度定义为:


浓度值\alpha越高导致 Dirichlet 分布越尖锐,如下图。 尖锐指的是分布更加集中。模型不确定性应该导致较低的精度值,因此导致整个单纯形的平坦分布,因为网络不熟悉数据。而数据不确定性应该由更尖锐但也居中的分布表示,因为网络可以处理数据,但不能给出明确的类别偏好。

Dirichlet 分布被用于多种方法,如 Dirichlet 先验网络 和 证据神经网络(Evidential Neural Networks)。这些网络类型的输出输出狄利克雷分布的参数,从中可以得出描述类别概率的分类分布。

先验网络以多任务方式进行训练,目标是最小化分布内数据预测与尖锐 Dirichlet 分布之间,以及平坦 Dirichlet 分布与非分布数据预测之间的预期 Kullback-Leibler (KL) 散度。除了可以更好地分离分布样本和 OOD 样本之外,这些方法还提高了正确预测和错误预测的置信度之间的分离。后续讨论了对于数据不确定性高的情况,KL 散度的前向定义可能导致不希望的多模型目标分布。为了避免这种情况,他们使用反向 KL-散度重新表述了损失。实验表明在不确定性估计以及对抗鲁棒性方面都有改进的结果。

证据神经网络也是优化单个Dirichlet网络的参数化。损失函数是通过使用主观逻辑推导出来的,按照Dempster-Shafer理论将对数解释为多项式意见(opinion)或信念(belief)。证据神经网络将证据总量与类别数量联系起来,并从中得出一个不确定性的值。损失被公式化为基本损失的预期值,例如分类交叉熵,相对于由 logits 参数化的 Dirichlet 分布。此外,还添加了一个正则化项,鼓励网络不考虑同时为多个类提供证据的特征,例如一个圆圈代表 6 和 8。因此,网络不区分数据不确定性和模型不确定性,但要了解他们是否可以给出某种预测。

关于基于狄利克雷分布的方法可以看[4]。除了上述基于狄利克雷分布的方法外,还存在其他几种内部方法,比如使用 Radial Basis Function (RBF) 网络。

外部不确定性量化方法

外部不确定性量化方法不会影响模型的预测,因为对不确定性的评估与基本的预测任务是分开的。此外,几种外部方法可以同时应用于已经训练好的网络,而不会相互影响。Raghu等人[5]认为,当预测和不确定性量化这两项任务都由一个单一的方法完成时,不确定性估计会受到实际预测任务的影响。因此,他们建议采用 "直接不确定度预测",并建议训练两个神经网络,一个用于实际预测任务,另一个用于对第一个网络的预测进行不确定度预测。类似地,Ramalho和Miranda[6]引入了一个额外的神经网络用于不确定性的估计。但与[5]不同的是,考虑了训练数据的表示空间,并对给定测试样本周围的密度进行了评估。额外的神经网络使用该训练数据密度,以预测主网络的估计是正确还是错误。Hsu等人[7]除了 softmax 输出给出的分类分布之外,还通过预测每个类的总概率来检测测试时分类任务中的分布外样本。类的总概率是通过对网络的对数应用sigmoid函数预测的。根据这些总概率,OOD的样本被识别为有较低概率的所有类别。

单一确定性方法在训练和评估上的效率都很高,只需要一次或者两次前向计算就可以得到不确定性估计。缺点是它们依赖于单一观点,因此可能对底层网络架构、训练过程和训练数据非常敏感。

(剩下方法太多了以后再看)

[1] Gawlikowski J, Tassi C R N, Ali M, et al. A survey of uncertainty in deep neural networks[J]. arXiv preprint arXiv:2107.03342, 2021.
[2] Zou K, Chen Z, Yuan X, et al. A Review of Uncertainty Estimation and its Application in Medical Imaging[J]. arXiv preprint arXiv:2302.08119, 2023.
[3] M. Hein, M. Andriushchenko, and J. Bitterwolf, “Why relu networks yield high-confidence predictions far away from the training data and how to mitigate the problem,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2019, pp. 41–50.
[4] A Survey on Dirichlet Neural Networks - Charles Corbière’s page (chcorbi.github.io)
[5] M. Raghu, K. Blumer, R. Sayres, Z. Obermeyer, B. Kleinberg, S. Mullainathan, and J. Kleinberg, “Direct uncertainty prediction for medical second opinions,” in International Conference on Machine Learning. PMLR, 2019, pp. 5281–5290
[6] T. Ramalho and M. Miranda, “Density estimation in representation space to predict model uncertainty,” in Engineering Dependable and Secure Machine Learning Systems: Third International Workshop, EDSMLS 2020, New York City, NY, USA, February 7, 2020, Revised Selected Papers, vol. 1272. Springer Nature, 2020, p. 84
[7] Y.-C. Hsu, Y. Shen, H. Jin, and Z. Kira, “Generalized odin: Detecting out-of-distribution image without learning from out-of-distribution data,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020, pp. 10 951–10 960.

相关文章

网友评论

    本文标题:如何实现可信 AI:不确定性估计

    本文链接:https://www.haomeiwen.com/subject/nwqdldtx.html