模型评估

作者: jacksu在简书 | 来源:发表于2017-03-17 08:59 被阅读359次

    过拟合

    很可能巳经把训练样本自身的一些特点当作了所有潜在样本都
    会具有的一般性质,这样就会导致泛化性能下降。

    评估方法

    通过实验测试来对学习器的泛化误差进行评估并进而做出选择 ,为此, 需使用一个 "测试集" (testing set) 来测试学习器对新样本的判别能力。

    留出法

    将数据集 D 划分为两个互斥的集合?其中一个集合作为训练集S ,另一个作为测试集 T, 即 D=SUT,S^T=空。

    交叉法

    交叉法

    自助法

    给定包含 m 个样本的数据集 D , 我们对它进行采样产生数据集 D': 每次随机从 D 中挑选一个样本, 将其拷贝放入 D'。
    优点:自助法在数据集较小、难以有效划分训练/测试集时很有用。

    性能度量

    对学习器的泛化性能进行评估,不仅需要有效可行的实验评估方法,还需要有衡量模型泛化能力的评价标准。

    错误率(error)

    分类错误的样本占样本总数的比例

    精度(accuracy)

    精度=1-错误率

    | 真实情况 | 预测结果 |
    | ------| ------ | ------ |
    || 正例 | 反例|
    | 正例 | TP(真正例 True Positive) | FN(假反例 False negative) |
    | 反例 | FP (假正例)| TN(真反例) |

    准确率也叫查准率(precision)

    比如:“检索出的信息中有多少比例是用户感兴趣的”
    查准率P=TP/(TP+FP)

    召回率也叫查全率(recall)

    比如:“用户感兴趣的信息有多少比例被检索出来了”。
    召回率R=TP/(TP+FN)
    查准率和查全率是一对矛盾的度量。一般来说,查准率高时,查全率往往偏低;而查全率高时,查准率往往偏低。

    ROC 全称是"受试者工作特征" (Receiver Operating Characteristic) 曲线

    ROC 曲线的纵轴是"真正例率" (True Positive Rate,简称 TPR),横轴是"假正例率" (False Positive Rate,简称 FPR)
    TPR=TP/(TP+FN)
    FPR=FP/(TN+FP)

    AUC (Area Under ROC Curve)

    ROC 曲线下的面积,面积越大,模型性能越好

    损失(loss)

    AUC=1-损失

    比较校验

    假设检验

    假设检验(Hypothesis Testing)是数理统计学中根据一定假设条件由样本推断总体的一种方法。

    假设检验

    相关文章

      网友评论

        本文标题:模型评估

        本文链接:https://www.haomeiwen.com/subject/bzpwwttx.html