美文网首页
简述机器学习中模型的评估方法

简述机器学习中模型的评估方法

作者: 毛毛虫_wendy | 来源:发表于2018-09-01 11:53 被阅读0次

Class Content
layout post
title 简述机器学习中模型的评估方法
categories Blog
description 模型评估方法主要用于对模型的泛化误差进行评估进而选择最优模型,主要的方法有留出法、S折交叉验证法、自助法
keywords 留出法 交叉验证法 自助法,以及对应的代码

1. 前言

机器学习的模型选择指如何从假设空间中选择泛化能力最大的模型,增加训练数据集、加正则项都能有效地抑制过拟合现象,而在实际应用中数据是不充足的,为了选择最优的模型还可以通过交叉验证方法。

交叉验证的思想:重复使用给定的数据,把给定的数据切分为训练集和测试集,在此基础上反复地进行训练、测试以及模型选择。

当然,如果样本数量充足,可以随机地把数据切分成三部分:训练集用来训练模型,验证集用于模型选择合调参,测试集对最终模型的评估。

2. 主要方法

1. 留出法(简单交叉验证)
方法:随机将样本分为测试集和训练集,然后用训练集训练模型,得到训练模型之后,在测试集上评价各个模型的测试误差,再选择测试误差最小的模型。

Note:
a. 训练集和测试集的划分尽量保持数据分布的一致性,避免因为数据划分过程引入额外的偏差,例如在多分类时至少保证样本的类别比例相似,从采样的角度来看待数据划分,采样方式被称为“分层采样”。
b. 使用留出法一般采用若干次随机划分、重复实验评估取平均值,单次使用留出法结果往往不够稳定。

def simple_cross(item, label, k):
    """
    对每类标签随机抽取相同的个数构造成测试集,样本中剩余的数据为训练集,要求数据为数据框结构,且标签的column为"Label"
    :param item: sample data
    :param label:data type of list. 标签名称列表,eg label=[1,2,3,4,5,6]
    :param k: sample number of each label. 每类标签的数量
    :return: train and test data
    """
    label_indexs, all_indexs = {}, []
    for _i in label:
        label_indexs[_i] = []
    for index in item.index:
        label_indexs[item.ix[index, "Label"]].append(index)
    for value in label_indexs.values():
        all_indexs.extend(random.sample(value, k=k))
    test_data = item.ix[all_indexs, ]
    train_data = item.drop(all_indexs)
    return train_data, test_data

2. S折交叉验证
方法:随机将样本拆分成S个互不相交大小相同的子集,然后用S-1个子集作为训练集训练模型,用剩余的子集测试模型,对S中选择重复进行,最终选出S次测评中的平均测试误差最小的模型。

Note:
a. 这种方法用得最多,而交叉验证评估结果的稳定性很大程度取决于S.
b. 与留出法类似,划分为S折存在多种方式,所以为了减小样本划分不同而引入的误差,通常随机使用不同的划分重复P次,即为P次S折交叉验证

def S_cross(item, S):
    """
    将样本数据分为K-折,再将训练集和测试集组合成k组返回.train_test为list类型以元组形式表示
    例如[(test1,train1),(test2,train2),(test3,train),(test4.train4)],注意获取S组训练集和测试集
    :param item: sample data
    :return: S-折 train and test data
    """
    item = shuffle(item)
    k = math.floor(len(item) / S)
    train_test = []
    item_indexs = [item.index[i:i + k, ] for i in range(0, len(item.index)-k, k)]
    for test_index in item_indexs:
        train_test.append((item.loc[test_index], item.drop(test_index)))
    return train_test

3. 留一法
方法:它是S折交叉验证的特殊情况,S=N,其中N为数据容量,划分样本方式唯一。
注:
a. 数据缺乏时使用,当数据集很大时,计算开销很大
b. 由于测试集只有一个样本,所以模型因样本规模不同而导致的估计偏差比前两种小

4. 自助法
方法:以自助采样为基础,对m个样本数据随机挑选1个,放回后再随机挑选1个,重复m次,这样得到了与样本规模一样大小的训练集,测试集中有一部分样本多次出现,有一部分样本不出现,可以做一个简单估计,样本在m次采样中始终没有被采样的\lim\limits_{n \rightarrow +\infty} (1-\frac{1}{m})^m \rightarrow \frac{1}{e} \approx 0.368,即大约36.8%的样本未出现在训练集中,未出现在训练集中的样本组合成测试集。

Note:
a. 自助法在数据较小,难以划分测试集和训练集时有用,从初始数据集中产生多个不同的训练集,这对集成学习等方法有很多好处。
b.缺点:自助法产生的数据集改变了初始数据集的分布,引入估计误差。

def bootstraping(item):
    """
    自助法采样.对数据进行M=len(item.index)有放回采样.最后得到M个训练集,未被采样到的作为测试集
    :param item:sample data
    :return:训练集和测试集
    """
    train_indexs = np.random.choice(item.index, size=len(item.index), replace=True)
    train_data = item.loc[train_indexs, ]
    test_data = item.drop(list(set(item.index) - set(train_indexs)))
    return train_data, test_data
     

总结

划分训练集和测试是机器学习的基础,在这些划分方法中最常用的就是S折交叉验证,为了以后使用方便,我附带了实现函数.

如有疑问,联系dengwenjun818@gmail.com

相关文章

  • 简述机器学习中模型的评估方法

    1. 前言 机器学习的模型选择指如何从假设空间中选择泛化能力最大的模型,增加训练数据集、加正则项都能有效地抑制过拟...

  • 机器学习(深度学习)常见面试题--基础知识篇

    1. 模型评估 在机器学习领域,模型评估至关重要,只有选择和问题相匹配的评估方法,才能更快更好的完成训练。将模型评...

  • Spark机器学习笔记

    Spark机器学习笔记 机器学习 机器学习是数据通过算法构建出模型并对模型进行评估,评估的性能如果达到要求就拿这个...

  • 【百面机器学习-模型评估】

    为什么需要模型评估? 在计算机科学特征时机器学习领域中,对模型的评估至关重要。只有选择与问题相匹配的评估方法...

  • 一文深度解读模型评估方法

    本文将总结机器学习最常见的模型评估指标。训练学习好的模型,通过客观地评估模型性能,才能更好实际运用决策。模型评估主...

  • 大师兄的Python机器学习笔记:数据重抽样

    大师兄的Python机器学习笔记:数据预处理大师兄的Python机器学习笔记:实现评估模型 一、重抽样方法 1. ...

  • 机器学习中F1 score的理解

    机器学习中对于模型正确率的预估 在机器学习中模型的好坏的评估可以从几个指标入手: 精确率和召回率是对于分类任务来说...

  • 数据科学指南

    摘要:本文为学习数据科学的指南,从编程语言、数据库管理、数据收集和整理方法、特征工程、机器学习模型、模型评估方面进...

  • 机器学习:常用模型评估指标

    在机器学习建模过程中,针对不同的问题,需采用不同的模型评估指标。 一、分类模型评估指标: 1、混淆矩阵(Confu...

  • 机器学习模型评估指标示例

    选择正确的度量来评估机器学习模型 我们什么时候评估我们的机器学习模型呢?答案不是只有一次。通常,我们在实际的数据科...

网友评论

      本文标题:简述机器学习中模型的评估方法

      本文链接:https://www.haomeiwen.com/subject/amryiftx.html