美文网首页
【西瓜书读书笔记】第一章 绪论

【西瓜书读书笔记】第一章 绪论

作者: Still_Climbing | 来源:发表于2019-10-09 09:23 被阅读0次

一、机器学习研究内容

机器学习致力于研究如何通过计算的手段,利用经验来改善自身的性能。由于经验通常以数据的形式存在,因此机器学习所研究的主要内容,时关于在计算机上从数据中产生模型的算法,即学习算法。

二、基本术语

书中以西瓜作为案例,规定一个西瓜的数据格式如(色泽=青绿;根蒂=蜷缩;敲声=浊响)所示,现假定我们已经收集到了一批西瓜数据。

1. 数据集:这组记录的集合称为一个数据集
2. 样本:数据集中每条记录是关于一个事件或对象(这里为西瓜)的描述,称为一个示例或样本。
3. 属性:反映事件或对象在某方面的表现或性质的事项,例如“色泽”、“根蒂”、“敲声”,称为属性或特征。
4. 属性空间:属性张成的空间称为属性空间或样本空间或输入空间。例如我们可以将色泽、根蒂和敲声作为三个坐标轴,以一个三维空间来描述一个西瓜样本。
5. 特征向量:每个样本都可以在属性空间中找到自己的坐标位置,由于空间中每个点对应一个坐标向量,因此我们也把一个示例称为一个特征向量。
6. 数学符号描述:一般地,令D = {x1, x2, ..., xm}表示包含m个示例的数据集,每个示例由d个属性描述,则每个示例 xi = (xi1; xi2; ...; xid)是d维样本空间 X 中的一个向量,xi ∈ X,其中 xij 是 xi 在第 j 个属性上的取值,d称为样本的维数。
7. 学习:从数据中学得模型的过程称为学习或训练,训练过程中使用的数据称为训练数据,其中每个样本称为一个训练样本,训练样本组成的集合称为训练集。
8. 标记:计算机需要知道训练样本对应的结果信息,才能知道自己的预测结果是否正确,从而不断进行自我调整。这里关于示例的结果信息称为标记(标签);拥有了标记的信息示例称为样例。一般用(xi, yi)表示第 i 个样例,其中 yi ∈ Y是示例 xi 的标记,Y 是所有标记的集合,称为标记空间。
9. 分类与回归:若我们预测的是离散值,则此类任务称为分类;若预测的是连续值,则此类学习任务为回归。
10. 测试:学得模型后,使用该模型进行预测的过程称为测试,被预测的样本称为测试样本。
11. 聚类:将训练集中的样本可以分成若干组,每组称为一个簇,这些簇可能对应一些潜在的概念划分。这样的学习过程有助于我们了解数据内在的规律,能更为深入地分析数据建立基础。
12. 有/无监督学习:训练数据有标签则为监督学习,训练数据无标签则为无监督学习。分类和回归属于前者代表,聚类属于后者代表。
13. 泛化:学得模型适用于新样本的能力,称为泛化能力。泛化能力越强,学得的模型越好。
14. 假设空间:在训练模型的过程中所有假设组成的空间称为假设空间,简单来讲就是属性所有可能取值组成的可能样本空间,用 H 表示。我们可以把学习过程看作一个在假设空间中进行搜索的过程,搜索目标是找到与训练集匹配的假设。
15. 版本空间:与已知数据集一致的所有假设的子集集合。
16. 奥卡姆剃刀原则:若有多个假设与观察一致,选择最简单的那个。
17. NFL定理:无论学习算法Ea多么聪明,学习算法Eb多么笨拙,它们的期望性能是相同的。该定理的意义在于让我们认识到脱离具体问题,空泛地谈论什么学习算法更好毫无意义。

相关文章

  • 西瓜书--绪论

    机器学习致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。在计算机系统中,”经验”通常以“数据”的形式存...

  • 机器学习笔记

    以西瓜书为主线,以其他书籍作为参考进行补充,例如《统计学习方法》,《PRML》等 第一章 绪论 1.2 基本术语 ...

  • 【西瓜书读书笔记】第一章 绪论

    一、机器学习研究内容 机器学习致力于研究如何通过计算的手段,利用经验来改善自身的性能。由于经验通常以数据的形式存在...

  • 西瓜书读书笔记--第一章 绪论

    1.1 引言 略 1.2 基本术语 1.2.1 数据集相关的基本概念 假定我们收集了一批关于西瓜的数据,例如(色泽...

  • 《西瓜书》小记(一) 绪论

    简介 此章节以西瓜为主题介绍了一下机器学习的基本概念,如数据集、样本空间、特征向量等等,顺带介绍了一些机器学习的发...

  • 如何正确的挑选西瓜

    《机器学习》周志华第一章 绪论盛夏来临,空调西瓜成为幸福的代名词。于是,如何正确的挑选西瓜变成一个影响幸福值的重要...

  • 西瓜书 菜鸟学习笔记 绪论

    引言 机器学习研究的主要内容是关于在计算机上从数据中产生“模型”(model)的算法,即学习算法(learning...

  • 周志华《机器学习》1~3章笔记

    第一章 绪论 机器学习的定义 关于“学习算法”的学问。 机器学习的一些基本术语 假设我们收集了一批西瓜的数据,例如...

  • 机器学习(西瓜书)第一章 绪论 课后习题

    1.1 表1.1中若只包含编号为1和4的两个样例,试给出相应的版本空间。 题目详细描述:表格如下所示 编号色泽根蒂...

  • 《河南传统儿歌》读书笔记(一)

    今天读了《河南传统儿歌》的绪论和第一章。 绪论 本书是以河南传统儿歌为对象,在绪论部分作者首先对儿...

网友评论

      本文标题:【西瓜书读书笔记】第一章 绪论

      本文链接:https://www.haomeiwen.com/subject/cfqbyctx.html