美文网首页
监督学习(一)——几个概念

监督学习(一)——几个概念

作者: 小书同学 | 来源:发表于2019-01-10 23:51 被阅读0次

    今天主要介绍几个概念信息,用比较浅显易懂的方式来阐述。

    1、监督学习

    用户将成对的输入和预期输出数据提供给算法,算法从中找到一种方法(具体方法不用深究),然后根据给定输入给出预期输出。这就是监督学习的过程。而这个过程中,从输入—输出对中进行学习的机器学习算法叫作监督学习算法
    什么时候使用监督学习,可以有一个简单的说明:
    每当想要根据给定输入预测某个结果,并且还有输入—输出对的示例时,都应该使用监督学习

    2、分类与回归

    监督学习的问题主要有两种:分类和回归
    分类问题的主要目的是预测分类标签,这些标签来自预定义的可选列表。
    分类问题可分为二分类和多分类。比如邮件系统,对于垃圾邮件的识别就是一个分类问题。

    回归任务的目标是预测一个连续值。例如,根据教育水平、年龄和居住地来预测一个人的年收入,预测的结果是一个金额数值。

    3、泛化

    如果一个模型能够对没见过的数据做出准确预测,我们就说它能够从训练集泛化到测试集。而我们的目的是要构建一个泛化精度尽量高的模型。

    4、过拟合和欠拟合

    判断一个算法在新数据上表现好坏的唯一度量,就是在测试集上的评估。简单的模型对新数据的泛化能力更好,因此我们总是希望找一个最简单的模型。
    构建一个对现有的信息来说过于复杂的模型,就被称为过拟合
    如果在拟合模型的时候,过分关注训练集的细节,得到了一个在训练集上表现很好,但不能泛化到新数据上的模型,那么久存在过拟合现象。

    相反,如果模型过于简单,那么就可能无法抓住数据的全部内容以及数据中的变化。甚至可能模型在训练集上的表现也很差。而选择这种过于简单的模型被称为欠拟合

    对于过拟合欠拟合,二者之间存在一个最佳位置,也可以得到最好的泛化性能。这就是我们最需要的。

    5、数据复杂度与数据集大小的关系

    模型复杂度与训练数据集中输入的变化密切相关:
    数据集中包含的数据点的变化范围越大,在不发生过拟合的前提下可以使用的模型就越复杂。通常来说,收集更多的数据点可以有更大的变化范围,所以更大的数据集可以用来构建更复杂的模型。但是, 仅复制相同的数据点或收集非常相似的数据是无济于事的。
    因此,收集更多数据,适当构建更复杂的模型,对监督学习任务往往特别有用。

    未完待续!

    相关文章

      网友评论

          本文标题:监督学习(一)——几个概念

          本文链接:https://www.haomeiwen.com/subject/ylqarqtx.html