美文网首页机器学习算法学习scikit-learn
scikit-learn--cross-validated(交叉

scikit-learn--cross-validated(交叉

作者: DayDayUp_hhxx | 来源:发表于2017-06-09 15:10 被阅读186次

在scikit-learn中,可以使用 train_test_split 快速地将数据集分为训练数据和测试数据。当我们评估不同的设置(超参数)时,在测试集上仍然存在着过拟合风险,因为参数要不断调整到模型最佳为止。在这个过程中,关于测试集的知识就会“泄漏”到模型中,评估指标也不再泛化。为了解决这个问题,数据集的一部分被作为“验证集”,在训练集上训练数据,然后在验证集上验证,直到模型看起来成功了,再在测试集上最终评价。
然而,把数据集分为三部分,我们用来学习模型的训练数据将减少,并且模型结果依赖划分数据集的特定随机数。
cross-validation (CV) 过程用来解决这个问题。测试数据集仍然用来做最终的评价,但是验证集不再需要。k折 CV方法,把训练数据划分为k 个小数据集,k-1 折数据用来训练,余下的数据用来评估。
k折 CV方法采用递归计算中的平均值作为模型评价,这种方法会导致较大的计算量,但是没有浪费数据。

计算CV指标

CV 最简单的方法是使用 cross_val_score函数。

from sklearn.model_selection import cross_val_score
clf = svm.SVC(kernel='linear', C=1)
scores = cross_val_score(clf, iris.data, iris.target, cv=5)
scores        

每次CV迭代的得分默认使用模型的得分计算计算,也可以通过 scoring 参数修改,例如 scoring='f1_macro'。
当参数 cv 是整数时,使用 KFold 或 StratifiedKFold 策略,也可以使用其他划分策略。
cross_val_predit 对于每个输入,返回这个输入在测试集中的预测值。只有在cv策略把输入的所有元素都分配到测试集一次的情况下,才能使用。

分层数据的交叉验证(Cross-validation iterators with stratification based on class labels.)

对于不平衡分类问题,推荐使用 StratifiedKFold 和StratifiedShuffleSplit 确保在训练和测试集中保持近似的频率。

分组数据的交叉验证

GroupKFold
LeaveOneGroupOut
LeavePGroupsOut
GroupShuffleSplit

时间序列数据的交叉验证

TimeSeriesSplit


来源:http://scikit-learn.org/stable/modules/cross_validation.html

相关文章

  • scikit-learn--cross-validated(交叉

    在scikit-learn中,可以使用 train_test_split 快速地将数据集分为训练数据和测试数据。当...

  • 交叉工具链

    Ⅰ什么是交叉工具链 Ⅱ嵌入式开发模型——交叉开发 Ⅲ 常用交叉工具 ①交叉编译器 arm...

  • 交叉

    一二三四五 甲乙丙丁戊 一甲二乙三丙四丁五戊 以为这就是既定选项 没想到 到了结局 没有一个 如你所料

  • 交叉

    一、金叉 DIFF自下而上穿越DEA,买入 有质量的金叉条件: 1、交叉点位于0轴上方 2、交叉点离0轴较近 3、...

  • 交叉

    我想闻馄饨的香味,不想闻道路卷起的尘土 我想听清湖的风声,不想听热闹车鸣的早安 我想看南方的北人,不想看理所当然的...

  • 交叉

    园中的桃花将要开了 天空的云缓缓飘过 昨天放过的风筝 静静靠在壁柜门里 我想说的又是什么 不管懂或是不懂 那些飞翔...

  • 交叉

    交织的是命运, 缠绕的是情愫, 结局除了交叉, 无非就是平行, 奈何命运多情, 你我就好似那, 满墙的爬山虎, 缠...

  • 交叉

    我发现优秀的交互设计师都很喜欢写文章,这是个好习惯。在不断输出的过程中进行总结。但是我观察了一些设计师,却发现好像...

  • 交叉

    前后不断交叉的双腿 像一把剪刀 从时间的界限准确的剪开 剪一下 便分开了过去和未来 不管快与慢 也顾不上犹豫

  • 交叉.

    芯儿学习记 指向五个方位光芒四射心中自有交叉

网友评论

    本文标题:scikit-learn--cross-validated(交叉

    本文链接:https://www.haomeiwen.com/subject/alltqxtx.html