机器学习入门笔记系列(7) | 评估机器学习算法

作者: 胖三斤66 | 来源:发表于2018-09-14 17:28 被阅读7次

    如果你喜欢本文的话,不妨点赞、分享或者关注公共号「数据搬瓦工」,上面会同步更新文章。

    如何有错误之处,还望大家指点,我将及时修改。

    本文重点讲解「评估机器学习算法」


    一、评估学习算法

    1.1 调试算法的方法

    假设你已经实现了正则化线性回归模型去预测房价。然而,当你用新的测试数据集去测试你的模型,你发现预测结果与真实值有很大误差。接下来你应该怎么做?

    这里有以下几种调试方法:

    1. 使用更多的训练样本(get more training examples);
    2. 减少特征数(try smaller sets of features);
    3. 增加特征数(try getting additional features);
    4. 增加多项式特征,如 x_1^{2},x_2^{2},x_2x_1...
    5. 减小正则化参数 \lambda
    6. 增加正则化参数 \lambda

    注意,不要盲目随机选择一种调试方法,否则会造成时间上的浪费且得不到效果。下面会介绍评价模型的方法并选择合适的调试方法。

    1.2 评估假设(Evaluating a Hypothesis)

    为了能有效地评估假设, 先要将数据集分成两个部分:训练集(training set),测试集(test set)。通常,将 70% 数据集划分为训练集,30% 的数据集划分为测试集。注意,在数据集分割的时候, 最好先打乱数据的顺序, 以免数据集本身的顺序对我们的评估造成影响。

    训练集和测试集的划分

    模型训练、测试过程如下:

    1. 使用训练集去最小化 J_{train}(\theta) 和学习参数 \theta
    2. 代入测试集计算测试误差 J_{test}(\theta)

    测试误差 J_{test}(\theta) 计算

    对于回归问题,J_{test}(\theta) 的计算与回归模型的待机函数计算公式一样,但 J_{test}(\theta) 不需要正则化处理;

    而对于分类问题,测试误差是统计错误分类的比例,其计算方法如下:

    分类问题的测试误差计算

    1.3 模型选择:交叉验证(Cross Validation, CV)

    即使一个模型对训练集拟合效果很好,也不能说明它是一个好模型。比如过拟合情况,它对训练集拟合效果好,但泛化能力差对新数据预测结果差。

    那么, 如何量化表示模型的泛化能力 / 泛化误差?

    你可能会想着采用测试误差作为泛化误差。但这不是一个好方法。请看下面的例子。

    当你有以下 10 个模型假设可供选择,

    1. 我们将数据集划分为训练集和测试集;
    2. 对每一个模型假设,用训练集最小化 J_{train}(\theta^{(i)}) 并学习参数 \theta^{(i)}
    3. 然后计算每一个模型假设的测试误差 J_{test}(\theta^{(i)})
    4. 然后选择最小的 J_{test}(\theta^{(i)}) 作为最终的模型假设,比如 J_{test}(\theta^{(5)}) 最小,选择假设 h_\theta(x) = \theta_0 + ... + \theta_5x^5
    5. 模型的泛化误差等于测试误差。
    样本二分法模型选择

    乍一眼看过去,这种方法是没问题的。实际上,用测试误差代表泛化误差是不合理的。

    用测试误差代表泛化误差是不合理的。选中的模型是基于这几个模型假设中最小的测试误差 min~J_{test}(\theta) 。而又将测试误差作为模型的泛化误差,其实是对模型的泛化误差过于乐观的估计。

    交叉验证法(CV)

    解决上述问题的方法,就是再增加一个集合:验证集(Cross Validation Set),作为中间的过渡层。具体的数据集划分方法如下:

    1. 训练集(一般占 60%);
    2. 验证集(一般占 20%);
    3. 测试集(一般占 20%)。

    模型选择就变为:

    1. 我们将数据集划分为训练集、验证集和测试集;
    2. 对每一个模型假设,用训练集最小化 J(\theta^{(i)}) 并学习参数 \theta^{(i)}
    3. 然后计算每一个模型假设的验证误差 J_{cv}(\theta^{(i)})
    4. 然后选择最小的 J_{cv}(\theta^{(i)}) 作为最终的模型假设,比如 J_{cv}(\theta^{(5)}) 最小,选择假设 h_\theta(x) = \theta_0 + ... + \theta_5x^5
    5. 然后计算选中假设的测试误差 J_{test}(\theta^{(5)}),且模型的泛化误差等于测试误差。

    验证集作为中间层用于选择模型,而测试误差不再作为选择模型的标准。此时,测试误差作为泛化误差更为合理。

    PS:学习参数 \theta^{(i)} 时,即计算 J(\theta^{(i)}) 需要正则化;而计算 J_{train}(\theta^{(i)}),J_{cv}(\theta^{(i)}),J_{test}(\theta^{(i)}) 不需要正则化。用下面代码理解:

    计算方式
    [theta] = trainLinearReg(X, y, lambda); # 学习参数 theta,需要正则化
    J_train(i) = linearRegCostFunction( X, y, theta, 0); # 训练集误差,不需要正则化,故函数最后一个参数是lambda = 0
    J_cv(i) = linearRegCostFunction( Xval, yval, theta, 0); # 验证误差,不需要正则化,故函数最后一个参数是lambda = 0
    

    二、诊断欠拟合(underfitting) / 过拟合(overfitting)

    2.1 判断欠拟合 / 过拟合

    欠拟合(又称为高偏差,high bias)和过拟合(又称为高方差,high variance),这两种情况表现形式如下图所示。欠拟合是模型对训练集拟合效果太差,过拟合时模型对训练集拟合效果太好导致泛化能力太差。

    欠拟合和过拟合

    结合上面所讲的交叉验证法,学习如何判断欠拟合 / 过拟合:

    欠拟合:J_{train}(\theta)J_{cv}(\theta) 值都很大;
    过拟合:J_{train}(\theta) 值很小,且 J_{cv}(\theta) >> J_{train}(\theta)

    2.2 正则化与欠拟合 / 过拟合

    正则化也会对模型产生影响,如下图所示。

    过大的正则化参数,会导致受惩罚的参数 \theta_1,...,\theta_n 变得过小且趋近于 0 ,h_\theta(x) \approx \theta_0,最后导致欠拟合;过小的正则化参数,可能会导致过拟合。

    总之,正则化参数 \lambda 过大,可能会欠拟合;\lambda 过小,可能会过拟合。

    正则化参数产生的欠拟合 / 过拟合

    如何选择合适的正则化参数 \lambda?步骤如下:

    1. 创建待选 λ 列表,如 \lambda \epsilon \{0, 0.01, 0.02, 0.04, 0.08, 0.16, 0.32,...\}
    2. 遍历所有 λ 并将每一个 λ 代入中模型中,学习参数 \theta
    3. 再使用得到的参数 \theta,计算每个模型的验证误差 J_{cv}(\theta)
    4. 选择验证误差最小的模型假设,其 λ 值就是该模型合适的正则化参数。

    举个例子,模型假设如下图所示。

    1. 创建待选正则化参数列表{0,0.01,0.02,...,10};
    2. 对应每一个 λ 最小化模型的代价函数得到参数 \theta^{(i)},一个 λ 对应一个参数 \theta
    3. 对应计算出各自的验证误差 J_{cv}(\theta^{(i)})
    4. 选最小验证误差,假设是 λ =0.08 时验证误差最小。故此 λ =0.08 是该模型较为合适的正则化参数。
    选择合适的正则化参数

    三、学习曲线

    学习曲线可以帮助我们判断模型处于欠拟合或者过拟合。学习曲线是误差关于训练集大小的函数。

    当训练集很小的时候,如训练集只有 1或者2或者3个数据时,模型很容易拟合,此时训练误差 J_{train}(\theta) 就很小,但模型此时泛化能力差,故此时验证误差 J_{cv}(\theta) 就很大;但随着训练集增大,模型拟合效果越来越差,而泛化能力增强,此时 J_{train}(\theta) 增大,J_{cv}(\theta) 减小;

    关键的地方来了

    如果模型处于欠拟合状态,本身拟合效果不好,随着训练集增加到一定程度再增加时,J_{cv}(\theta) 无法有效降低,并且最后 J_{cv}(\theta) \approx J_{train}(\theta)

    如果模型处于过拟合状态,J_{cv}(\theta) >> J_{train}(\theta)。但随着训练集增加,两者的差距逐渐减小,且能有效降低 J_{cv}(\theta)

    最后,下图展示欠拟合 / 过拟合情况的学习曲线。当这曲线都是理想化,实际中存在大量噪声。但总体曲线的趋势跟上图曲线一样。

    总结:通过逐步增加训练集,绘制学习曲线来判断增加数据集是否对模型有用。

    总结

    调试方法和适用情况

    调试方案 适用情况
    使用更多的训练样本 模型处于过拟合
    减少特征数 模型处于过拟合
    增加特征数 模型处于欠拟合
    增加多项式特征 模型处于欠拟合
    减小正则化参数 模型处于欠拟合
    增加正则化参数 模型处于过拟合

    欠拟合 / 过拟合的判断:通过逐步增加训练集,绘制学习曲线来判断增加数据集是否对模型有用。

    欠拟合 / 过拟合的特征:

    欠拟合:J_{train}(\theta)J_{cv}(\theta) 值都很大;
    过拟合:J_{train}(\theta) 值很小,且 J_{cv}(\theta) >> J_{train}(\theta)

    补充

    最后,看看神经网络和欠拟合 / 过拟合。“较小”的神经网络(隐藏层少或者神经元少)计算资源消耗较小, 但是容易出现欠拟合的问题;而“较大”的神经网络计算资源消耗较大, 但是容易出现过拟合的问题

    通常使用越大型的神经网络性能越好。如果出现过拟合问题,使用正则化参数 \lambda 进行修正。

    而隐藏层的层数选择可以通过使用上述的交叉验证法。

    相关文章

      网友评论

        本文标题:机器学习入门笔记系列(7) | 评估机器学习算法

        本文链接:https://www.haomeiwen.com/subject/zkikgftx.html