美文网首页Python机器学习
Python机器学习之交叉验证

Python机器学习之交叉验证

作者: 一只怂货小脑斧 | 来源:发表于2020-12-18 14:56 被阅读0次

    交叉验证是一种非常常用的对于模型泛化能力进行评估 方法,交叉验证既可以解决数据集的数据量不够大问题,也可以解决参数调优的问题。常用的交叉验证方法有:简单交叉验证(HoldOut检验,例如train_test_split)、k折交叉验证(例如KFold)、自助法
    kfold是将数据集划分为K-折,只是划分数据集;
    cross_val_score是根据模型进行计算,计算交叉验证的结果,你可以简单认为就是cross_val_score中调用了kfold进行数据集划分。

    扩展阅读博文
    1.几种交叉验证(cross validation)方式的比较
    2.交叉验证以及scikit-learn中的cross_val_score详解
    3.python sklearn中KFold与StratifiedKFold
    4.ML之sklearn:sklearn的make_pipeline函数、RobustScaler函数、KFold函数、cross_val_score函数的代码解释、使用方法之详细攻略

    注:
    klearn.model_selection模块官方说明文档
    sklearn.model_selection.KFold官方文档
    sklearn.model_selection.cross_val_score官方文档

    函数原型
    sklearn.cross_validation.cross_val_score(estimator, X, y=None, scoring=None, cv=None, n_jobs=1, verbose=0, fit_params=None, pre_dispatch=‘2*n_jobs’)
    参数解释
    estimator:数据对象
    X:数据
    y:预测数据
    soring:调用的方法
    cv:交叉验证生成器或可迭代的次数.cv可能的输入有:
    -无,使用默认的三折交叉验证,
    -整数,用于指定“(分层的)KFold”中的折叠数,
    -用作交叉验证生成器的对象。
    -一个可迭代产生的序列,测试分裂。
    对于整数/无输入,如果估计器是一个分类器,并且' ' y ' '是二进制的或多类的,则使用:class: ' StratifiedKFold '。在所有其他情况下,使用:class: ' KFold '。
    n_jobs:同时工作的cpu个数(-1代表全部)
    verbose:详细程度
    fit_params:传递给估计器的拟合方法的参数
    pre_dispatch:控制并行执行期间调度的作业数量。减少这个数量对于避免在CPU发送更多作业时CPU内存消耗的扩大是有用的。该参数可以是:
    1.没有,在这种情况下,所有的工作立即创建并产生。将其用于轻量级和快速运行的作业,以避免由于按需产生作业而导致延迟
    2.一个int,给出所产生的总工作的确切数量
    3.一个字符串,给出一个表达式作为n_jobs的函数,如'2 * n_jobs'
    返回
    交叉验证每次运行的评分数组

    一、(分层)K折交叉验证

    采用红酒数据进行交叉验证

    #导入hongjiu数据
    from sklearn.datasets import load_wine
    #导入交叉验证数据
    from sklearn.model_selection import cross_val_score,StratifiedKFold
    #导入用于分类的支持向量机模型
    from sklearn.svm import SVC
    
    #载入红酒数据
    wine = load_wine()
    
    #设置SVC的核函数为 linear
    svc = SVC(kernel='linear')
    
    #使用交叉验证法对SVC进行评分
    score = cross_val_score(svc, wine.data, wine.target)
    
    print('交叉验证得分:{}'.format(score))
    #获取平均分数
    print('交叉验证平均得分:{:.3f}'.format(score.mean()))
    
    print('\n======================设置cv=5')
    #数据集拆分成5个部分来评分,cv=5
    scores = cross_val_score(svc, wine.data, wine.target, cv = 5)
    print('交叉验证得分:{}'.format(scores))
    #获取平均分数
    print('交叉验证平均得分:{:.3f}'.format(scores.mean()))
    
    #打印红酒数据集的分类标签
    print('酒的分类标签:\n{}'.format(wine.target))
    
    
    print('\n======================使用StratifiedKFold 分层交叉验证')
    strKFold = StratifiedKFold(n_splits=5,shuffle=False,random_state=0)
    scores = cross_val_score(svc,wine.data, wine.target,cv=strKFold)
    print("straitified cross validation scores:{}".format(scores))
    print("Mean score of straitified cross validation:{:.3f}".format(scores.mean()))
    
    print('\n======================使用KFold 交叉验证')
    strKFold = KFold(n_splits=5,shuffle=False,random_state=0)
    scores = cross_val_score(svc,wine.data, wine.target,cv=strKFold)
    print("KFold cross validation scores:{}".format(scores))
    print("Mean score of KFold cross validation:{:.3f}".format(scores.mean()))
    

    执行结果如下所示:

    [ 0.83333333  0.95        1.        ]
    交叉验证得分:[ 0.83333333  0.95        1.        ]
    交叉验证平均得分:0.928
    
    ======================设置cv=5
    交叉验证得分:[ 0.86486486  0.97222222  0.97222222  1.          1.        ]
    交叉验证平均得分:0.962
    酒的分类标签:
    [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
     0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
     1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
     1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
     2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2]
    
    ======================使用StratifiedKFold 分层交叉验证
    straitified cross validation scores:[ 0.86486486  0.97222222  0.97222222  1.          1.        ]
    Mean score of straitified cross validation:0.962
    
    ======================使用KFold 交叉验证
    KFold cross validation scores:[ 0.91666667  0.88888889  0.88888889  0.94285714  0.91428571]
    Mean score of KFold cross validation:0.910
    

    可以看出:
    1.cross_val_score 在默认情况下会使用3个折叠,因此会得到3个分数
    2.如果要将数据集拆分成5个部分来评分,那么需要修改cross_val_score的 cv 参数为5,就会得到5个评分
    3.从红酒的标签可以看出,在拆分数据集的时候,有可能每个子集都是同一个标签,这样会导致模型的评分不高,所以采用分层k折交叉验证的优势在于,它会在每个不同分类中进行拆分,确保每个子集中都有数量基本一致的不同分类标签。
    4.从分数可以看出。cross_val_score 对于分类模型默认采用的是分层k交叉验证。

    二、随机拆分交叉验证

    随机拆分交叉验证的原理是,先从数据集中随机抽取一部分数据集作为训练集,再从其余的部分随机抽取一部分作为测试集,进行评分后再迭代,重复上一步的动作,直到把我们希望迭代的次数全部跑完。
    依旧采用红酒数据为例

    函数原型
    sklearn.cross_validation.ShuffleSplit(n_splits=10, test_size=None, train_size=None, random_state=None)[source]
    作用:生成高斯分布的概率密度随机数
    参数解释
    n_splits :产生的随机抽样组数
    test_size :测试集比例或样本数量,该值为[0.0, 1.0]内的浮点数时,表示测试集占总样本的比例;该值为整型值时,表示具体的测试集样本数量;train_size不设定具体数值时,该值取默认值0.1,train_size设定具体数值时,test_size取剩余部分
    train_size : 训练集比例或样本数量,该值为[0.0, 1.0]内的浮点数时,表示训练集占总样本的比例;该值为整型值时,表示具体的训练集样本数量;该值为None(默认值)时,训练集取总体样本除去测试集的部分
    random_state :随机数种子

    #导入hongjiu数据
    from sklearn.datasets import load_wine
    #导入交叉验证数据
    from sklearn.model_selection import cross_val_score,ShuffleSplit # ShuffleSplit随机拆分工具
    #导入用于分类的支持向量机模型
    from sklearn.svm import SVC
    
    #载入红酒数据
    wine = load_wine()
    
    #设置SVC的核函数为 linear
    svc = SVC(kernel='linear')
    
    #二、使用随机拆分交叉验证法对SVC进行评分
    #设置拆分的份数为10个
    shuffle_split = ShuffleSplit(test_size=.2, train_size=.7, n_splits=10)
    #对拆分好的数据进行交叉验证
    scores = cross_val_score(svc,wine.data, wine.target,cv=shuffle_split)
    print('\n======================使用shuffle_split 交叉验证')
    print("shuffle_split cross validation scores:{}".format(scores))
    print("Mean score of shuffle_split cross validation:{:.3f}".format(scores.mean()))
    

    执行结果如下所示:

    ======================使用shuffle_split 交叉验证
    shuffle_split cross validation scores:[ 0.91666667  1.          0.97222222  0.97222222  0.86111111  0.94444444
      0.88888889  0.94444444  0.94444444  0.91666667]
    Mean score of shuffle_split cross validation:0.936
    

    ShuffleSplit 一共为SVC模型进行了10次评分。

    三、留一法交叉验证

    与k折交叉验证类似,只是它把每一个数据点都当成一个测试集,所以,数据集中有多少个样本,它就要迭代多少次,如果数据集的数据量较大的话,是比较耗时的;但是。如果数据量很小的话,它的评分准确度是最高的。

    #导入hongjiu数据
    from sklearn.datasets import load_wine
    #导入交叉验证数据
    from sklearn.model_selection import cross_val_score,LeaveOneOut 
    #导入用于分类的支持向量机模型
    from sklearn.svm import SVC
    
    #载入红酒数据
    wine = load_wine()
    
    #设置SVC的核函数为 linear
    svc = SVC(kernel='linear')
    
    #三、使用LeaveOneOut交叉验证法对SVC进行评分
    cv = LeaveOneOut()
    #对拆分好的数据进行交叉验证
    scores = cross_val_score(svc,wine.data, wine.target,cv=shuffle_split)
    print('\n======================使用LeaveOneOut 交叉验证')
    print("迭代次数:{}".format(len(scores)))
    print("Mean score of LeaveOneOut cross validation:{:.3f}".format(scores.mean()))
    

    执行结果如下所示:

    ======================使用LeaveOneOut 交叉验证
    迭代次数:178
    Mean score of LeaveOneOut cross validation:0.955
    

    相关文章

      网友评论

        本文标题:Python机器学习之交叉验证

        本文链接:https://www.haomeiwen.com/subject/zksxnktx.html