StatQuest学习笔记22——交叉验证

StatQuest学习笔记22——交叉验证

作者: backup备份 | 来源:发表于2019-07-14 18:25 被阅读0次

StatQuest学习笔记22——交叉验证
机器学习笔记（一）——交叉验证
饭店流量预测
如何进行变量筛选和特征选择(三)？交叉验证
深度学习知识点汇总-机器学习基础（15）
R 交叉验证①
机器学习实战（基于Sklearn和tensorflow）第三章
机器学习—交叉验证
深度学习-交叉验证
StatQuest学习笔记05——线性模型

前言——主要内容

这篇笔记是StatQuest系列视频的第57节，主要内容是交叉验证。

选择哪些方法

我们先看一个简单的数据，如下所示：

image

我们要使用下面左侧的这些变量来预测右侧的心脏病，如下所示：

image

当我们遇到一个新的病人时，检测这些指标（左侧）来预测是否得了心脏病（右侧），如下所示：

image

此时，我们就面临一个问题，使用哪种方法来预测这个病人是否得有心脏病？如下所示：

image

是采用逻辑回归，还是KNN（K邻近算法），支持向量机（SVM）等等，如下所示：

交叉验证

image

此时就需要进行交叉验证（cross validation），用于比较不同的机器学习方法，然后在实际中运用，如下所示：

image

我们看下面的蓝色柱子，它代表了我们收集到的，没有心脏病患者的数据，如下所示：

image

对于这个数据，我们需要做2件事情，如下所示：

第一，估计机器学习方法的参数。例如对于逻辑回归来说，我们需要使用一些数据来估计这个曲线的形状，如下所示：

image

用机器学习的术语来说，用于估计参数的过程叫做“训练算法”（training the algorithm），如下所示：

image

第二件事情就是，我们要评估一下所选的这个方法工作起来到底行不行。也就是说，我们需要评估一下，找出的这条曲线能否对新的数据进行很好地归类，如下所示：

image

用机器学习的术语来讲，评估一个方法的好坏叫做“检验算法”（testing the algorithm），如下所示：

image

综上所述，我们对于选定的方法，需要做两件事情，第一，训练机器学习方法；第二，检验机器学习方法，如下所示：

image

比较麻烦的一点就是如果使用所有的数据来估计参数（例如训练算法），那么就没有余下的数据来测试这个算法的好坏，如下所示：

image

如果重新使用相同的数据用于训练，也用于检验，也不合适，因为我们要测试算法所使用的数据不能是训练数据，简单来说，就是不能同一批数据既用于训练，也用于检验，这样你无法判断这个算法是好是坏，如下所示：

image

一种比较好的思路就是，对于同一批数据，使用这批数据的75%用于训练，如下所示：

image

剩下的25%用于检验，如下所示：

image

然后我们就能通过查看测试数据中的归类情况来比较算法的好坏，如下所示：

image

交叉验证原理

但是，我们是怎么知道把数据分为前75%和后25%是一种最好的方法呢，如下所示：

image

为什么不使用前25%的数据用于检验算法，或者是使用中间25%的数据来检验算法，如下所示：

image

对此，不用多虑，因为无论选择哪一部分数据，交叉验证都会使用到这些数据，最终会把结果汇总出来，如下所示：

image

例如，交叉验证在开始的时候，使用前75%的数据来训练算法，如下所示：

image

用剩下的25%数据来检验算法，如下所示：

image

然后我们看一下这个算法对于测试数据的归类情况，如下所示：

image

然后，我们再看一下，使用其他的75%数据来训练算法，如下所示：

image

使用中间偏下的那25%数据用于检验，如下所示：

image

记录一下测试的结果，4个正确，2个错误，如下所示：

image

就像上面的过程一样，不断地采用各种75%的数据来训练，25%的数据来检验，同时记录下每次检验的结果，等等，如下所示：

image

最终，每一部分数据都用于了检验，然后我们就可以比较不同的算法检验的结果，如下所示：

image

从上面的结果来，SVM这个算法最好，因为它的正确率最高，如下所示：

image

我们需要注意的是，在这个案例中，我们把数据分成了4份，这种方法称为四重交叉验证（Four-Fold Cross Validation），不过个数字不一定是4，也可以是其他的，如下所示：

image

我们看一个比较极端的案例，在这个案例中，我们把每一个数据都当成一份，这种方法称为留一法交叉验证（Leave One Out Cross Validation），如下所示：

image

但在实际计算过程中，把数据分成10份也是常见的方法，这种方法称为十重交叉验证（Ten-Fold Cross Validation），如下所示：

image

调整参数不是估计值，是某种猜测值，当我们要使用某个涉及一个“调整参数”（tuning parameter）的方法时，例如岭回归（ridge regression）就有一个调整参数，如下所示：

image

此时，我们就可以使用十重交叉验证来找到这个最佳的调整参数，如下所示：

image

相关文章

StatQuest学习笔记22——交叉验证
前言——主要内容这篇笔记是StatQuest系列视频的第57节，主要内容是交叉验证。选择哪些方法我们先看一个...
机器学习笔记（一）——交叉验证
交叉验证问题什么是交叉验证交叉验证是在机器学习建立模型和验证模型参数时常用的办法。交叉验证，顾名思义，...
饭店流量预测
lightgbm 模型修改参数交叉验证【机器学习】Cross-Validation（交叉验证）详解. 在机器...
如何进行变量筛选和特征选择(三)？交叉验证
01 模型简介交叉验证是机器学习中常用的一种验证和选择模型的方法，常用的交叉验证方法是K折交叉验证。将原始数据...
深度学习知识点汇总-机器学习基础（15）
2.15 交叉验证和k折交叉验证交叉验证是为了提高模型的泛华能力。方法主要有：留一交叉验证 k折交叉验证这...
R 交叉验证①
什么是交叉验证？在机器学习中，交叉验证是一种重新采样的方法，用于模型评估，以避免在同一数据集上测试模型。交叉验证的...
机器学习实战（基于Sklearn和tensorflow）第三章
机器学习实战书籍第三章例子学习笔记书中源码，here本文地址，here要分为Mnist数据处理、交叉验证、混淆矩...
机器学习—交叉验证
1、经验误差与过拟合通常我们把分类错误的样本数占样本总数的比例称为"错误率”，学习器在训练集上的误差称为“经...
深度学习-交叉验证
关于交叉验证，具体原理在各种科普文中都有，在这里简要提一下：思想介绍在使用训练集对参数进行训练的时候，经常会发...
StatQuest学习笔记05——线性模型
前言——主要内容这篇笔记是StatQuest视频教程的第16到22。其中第16内容是线性回归（Linear Re...

网友评论

本文标题：StatQuest学习笔记22——交叉验证

本文链接：https://www.haomeiwen.com/subject/rfsikctx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|StatQuest学习笔记22——交叉验证|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！