美文网首页
论文阅读_模型鲁棒性的量化指标

论文阅读_模型鲁棒性的量化指标

作者: xieyan0811 | 来源:发表于2023-02-03 11:33 被阅读0次

name_en: Robustness Metrics:How Are They Calculated, When Should They Be Used and Why Do They Give Different Results?
name_ch: 鲁棒性度量:它们是如何计算的,何时应该使用以及为什么会给出不同的结果?
addr: http://doi.wiley.com/10.1002/2017EF000649
doi: 10.1002/2017EF000649
date_read: 2023-02-03
date_publish: 2018-02-01
tags: ['模型优化']
if: 7.495
journal: Earths Future
author: C. McPhail
citation: 156


(学习小组本周230202学习笔记,感谢轩奇总结分享)

读后感

建立一个框架,用于计算和量化模型鲁棒性。使用者应根据情境,风险偏好,以及分布等角度选择不同的衡量方法。更抽象地讲,它是对不确定性的决策原则。选择不同鲁棒性评价方法会影响决策,尽量使用多个指标结合的方式。

介绍

根据经济学中的不确定型决策原则。在深度不确定性下,存在多种不确定因素共同影响决策的后果。在这样的系统中,系统性能通常使用鲁棒性指标来衡量。

具体方法介绍

Maximin

悲观原则:有若干种结果,选择每个系列中最坏结果中的最好结果
Maximin = max(min_1, min_2, ..., min_n)

Maximax

乐观原则:有若干种结果,选择每个系列中最好结果中的最好结果
Maximax = max(max_1, max_2, ..., max_n)

Hurwicz optimism-pessimism rule

折衷原则:按比例结合乐观和悲观原则
HOR = αMaxmin + (1 − α)Maximax

Laplace's principle of insufficient reason

不充分理由原则:对所有结果取平均
LPIR=1 / n\sum_{i}^{n} real

Minimax regret

后悔最小原则:最优-实际,也是一种相对悲观的方法
regret_i = max − real_i
MinimaxRegret = min(regret_1, regret_2, ..., regret_n)

90th percentile minimax regret

与 Minimax regret 相似,只是取后悔的90分位数

Mean-vaiance

均值方差模型:类似不充分理由模型,通过频率采样,计算分布,估计打分

Undesirable deviations

不良偏差:将偏差的中位数作为打分

Percentile-base skewness

正态分布偏度:描述不对称程度,有左偏和右偏两种,它是对分布的评价(pandas可提供该统计值)

Percentile-base skewness

正态分布峰度:描述某个分布相⽐于正态分布的峰值⾼低的程度,它是对分布的评价

Starr's domain criterion

斯塔尔阈准则:计算性能与决策者选择的基准进⾏⽐较,并打分, 1为通过,0为不通过,计算打分的平均值,得分最高的鲁棒性高。

乐观程度排名如下图所示:


框架

框架由三部分组成:方案(Decision alternatives),条件(Plausible future conditions),度量方法(Performance metric)。代入机器学习的场景中,如下:

  • 方案->模型算法,解决一个问题可能有多个算法,x1,x2...xm,每次评价其中一种的鲁棒性
  • 条件->数据,不同情况下的数据,可视为不同场景,S={s1,s1...sn},比如不同环境下产生的数据,每个算法xi需要代入不同场景的数据
  • 度量方法->评价方法,将各个场景数据S代入模型xi,f(xi,S)评价模型在各场景下的效果。

计算其整体鲁棒性可分为以下三步:

  • T1:将对模型的评价方法f改为f',比如在后悔最小模型中,把对模型的打分改为最好值与实际值的差。
  • T2:选择场景子集,有的方法不需要所有子集参与,比如乐观原则只需要选择效果最好的场景子集。
  • T3:融合各个场景子集的结果,比如不充分理由原则会对所有子集的结果取均值。

具体方法对应的步骤如下:

如何选择鲁棒性度量方法

  • 在T1步中,可选择使用相对指标还是绝对指标,以及考虑客户满意度
  • 在T2步中,可选择使用单个场景,多个场景,所有场景,以及风险偏好
  • 在T3步中,需要考虑使用什么方法结合多场景的结果,如均值,方差,峰度等。

下表列出了不同方法T1,T2,T3步骤的差异以及风险偏好。

不同鲁棒性度量方法可能产生不一致结果。


扩展

对抗鲁棒性

具体应用时,如果没有多场景的数据,可以使用对抗攻击方式产生不同场景数据,然后用其评测模型鲁棒性。

工具介绍

对抗攻击工具箱
adversarial-robustness-toolbox
其readme.md中的Classifies展示了对分类器的攻击,其中包含针对不同种类模型攻击的工具。
具体使用逻辑是:先用数据训练一个模型(任意黑盒模型),然后用将模型和数据代入API,生成具有攻击性的数据,并用其评测模型被攻击后的效果。

相关文章

  • 鲁棒性

    “鲁棒”的英文是robustness Huber从稳健统计的角度系统地给出了鲁棒性的3个层面的概念 模型具有较高的...

  • 【优化技巧】指数移动平均(EMA)的原理及PyTorch实现

    在深度学习中,经常会使用EMA(指数移动平均)这个方法对模型的参数做平均,以求提高测试指标并增加模型鲁棒。 今天瓦...

  • 鲁棒性

    鲁棒是Robust的音译,也就是健壮和强壮的意思。它是在异常和危险情况下系统生存的关键。比如说,计算机软件在输入错...

  • 鲁棒性

    系统的健壮度,耐用性 一般指软件系统,在异常干扰导致死机或者程序走飞后能否回到出错处理或者程序复位再次进入正常流程...

  • [Sophia 学习笔记-HR] 激活绩效:KPI操盘手册-1.

    1. 量化绩效3*3 三个基本组成:考核指标(量化)、指标重要性(权重)、预算目标 三个层级:组织指标,部门指标,...

  • RAIL测量模型

    前言 可量化网站性能的测量标准,通过RAIL模型指导性能优化的目标,量化指标。 什么是RAIL Respose(响...

  • 商业护城河(四)|量化指标(上)

    之前我们讨论了量化指标的重要性,而接下来我们具体来聊聊如何量化指标。 具体量化指标 一家公司如果具备护城河一定是相...

  • 深度学习与金融市场——风险控制

    很多深度学习模型,会通过最大回撤来评估模型的风险控制能力,其中包括很多传统量化的也是用这个指标,当然量化金融领域有...

  • 趋势永存:打败市场的动量策略

    内容简介 《趋势永存——打败市场的动量策略》详细地介绍了一种操作简便、逻辑合理、鲁棒性强的动量策略,并给出了量化实...

  • Arxiv网络科学论文摘要11篇(2019-11-28)

    协作驱动个人生产力; 全速范围自适应巡航控制系统跟车模型的鲁棒性分析; 高度集群复杂网络的结构模型:随机规则小世界...

网友评论

      本文标题:论文阅读_模型鲁棒性的量化指标

      本文链接:https://www.haomeiwen.com/subject/yvqnhdtx.html