美文网首页
西瓜书学习笔记-模型评价

西瓜书学习笔记-模型评价

作者: 废柴社 | 来源:发表于2017-11-02 20:57 被阅读25次

    1.过拟合

    过拟合可能使得模型对已知样本非常准确,而对新样本效果并不理想,或者说模型的泛化能力较弱。

    overfiting vs underfitting

    而泛化能力是机器学习关注的一个重要标准,但又无法直接评价(模型在新样本上的效果如何、泛华误差是否足够小)。故引申出一系列的模型选择方法——验证集、交叉验证等等。

    image.png

    2.评估方法

    2.1数据集的划分

    (1)留出法
    即将已知样本划分成两部分,约2/3 到 4/5 作为 训练样本,剩余部分作为测试样本,且最好保持两部分的正负例比例一致。
    另外,测试样本至少需要30个样例。

    (2)交叉验证法 cross validation

    cross validation

    为避免划分不同带来的误差,可能会进行多次k折交叉验证,如10次10折交叉验证——即训练了100次。
    若k = 样本个数,即每次训练只留一个样本作为验证,是交叉验证中的特例,留一法(Leave one out)。
    留一法有好处,但在数据量较大的情况下,其计算成本非常高。

    (3)bootstrapping 译为自助法
    从已知样本D中,做放回抽样,产生一个样本量与已知样本量相同的训练集D’进行训练,而用D/D'进行测试。
    这样,训练集与期望的训练集(D)大小一致,但因训练集D'有重复的样本,会造成一定的估计误差。
    在样本量较小、难以有效划分训练\测试集时,采用bootstrapping 会比较有效

    (4)调参
    这部分未详细展开,且没完全看懂。

    3.性能度量(效果评价)

    performance measure

    (1)错误率与精度

    错误率与精度

    (2)查准率(precision)、查全率(recall)与F1
    有时任务的目标不仅取决于错误率或精度,比如衡量筛选出正例正确的比例、有多少正例被选出等等。此里就需要用其它指标来评价模型。

    image.png

    PR曲线:以查全率为横轴,查准率为纵轴汇制的曲线。

    F1 = 2PR/(P+R)

    F1 还可以衍生出通用公式,加入一个参数,通过参数大小来调节对查准率、查全率的要求。

    (3)ROC 与 AUC
    这部分在之前学习总结的另一篇文章里也有。这里按书中情况总结。

    很多模型会给每个预测样例输出一个实值或概率预测,对应的会有一个排序,而预测分类会取一个阈值,大于阈值则视为正例、小于则视为负例。这个排序本身质量的好坏体现了机器学习模型的性能。ROC即是从这个角度出发来研究模型性能的好坏。

    ROC ,受试者工作特征(Receiver Operating Characteristic)

    相关文章

      网友评论

          本文标题:西瓜书学习笔记-模型评价

          本文链接:https://www.haomeiwen.com/subject/urtapxtx.html