美文网首页
机器学习笔记(1)

机器学习笔记(1)

作者: 惊起却回首 | 来源:发表于2018-09-08 22:06 被阅读0次

机器学习笔记(1)

参考书:周志华《机器学习》

第1章 绪论

Part1 基本概念

1.机器学习的研究内容:如何从数据产生模型(学习算法)

2.数据集样本属性属性值

3.属性空间输入空间):由属性张成的向量空间,由此,每一个样本可以表示为一个向量

4.学习训练):由数据建模的过程,所使用的数据称为训练数据,相应的样本称为训练样本,数据集称为训练数据集

5.假设真实:训练所得模型为假设,规律本身为真实,学习要使假设尽可能逼近真实

6.标记样例:已经发生的已知的结果称为标记,拥有标记的样本称为样例

7.标记空间输出空间):由标记张成的空间,每一个样例表示为一个向量

8.泛化能力:模型不能只针对样例有效,对于未知的新样本也要有效,这种能力称为泛化

Part2 机器学习的分类

1.按有无样本空间分:

  • 有监督学习,包括分类回归
  • 无监督学习,包括聚类

2.按预测值的类型分:

  • 分类:预测值离散预定
  • 回归:预测值连续
  • 聚类:预测值离散不预定,其自动形成的组称为

Part3 机器学习的抽象过程

1.科学推理的基本手段:

  • 归纳:由特殊到一般,泛化
  • 演绎:由一般到特殊,特化

2.机器学习一般是指归纳学习

3.归纳学习分为:

  • 广义:模型视为黑箱
  • 狭义:能抽象出概念,又称概念学习

4.假设空间:由所有假设构成的空间,学习的过程就是在假设空间中找到最合适的假设(也就是模型)的过程

例如:有以下数据集

样本序号(采样的西瓜) 属性A(色泽) 属性B(根蒂) 属性C(敲声) 标记Y(是否为好瓜)
1 0(青绿) 0(蜷缩) 0(响亮) 1
2 1(乌黑) 0(蜷缩) 0(响亮) 1
3 0(青绿) 1(硬挺) 1(沉闷) 0
4 1(乌黑) 0(蜷缩) 1(沉闷) 0

其假设空间为{(0,0,0),(0,0,1),……(1,1,1)}的所有子集的集合,从其中搜索到(0,0,0)+(1,0,0)是符合的,则其假设为{(0,0,0),(1,0,0)},可以构建模型,Y=(非B)(非C),这就抽象出了一个概念:“根蒂蜷缩且敲声响亮的瓜为好瓜”,这个例子是概念学习中最简单的一类——布尔值概念学习*

5.版本空间 :符合条件的假设可能不止一个,所有符合条件的假设构成的空间为版本空间

6.归纳偏好 :事先无法判断版本空间中哪一个假设最好,但又必须输出一个确定的模型,因此一个学习算法必须有归纳偏好,常用如下:

  • 尽可能特殊复杂
  • 尽可能一般简单,即奥卡姆剃刀法则

7.NFT定理 :学习算法不影响总误差,即"No Free Lunch",所以我们不能一概而论说某个学习算法最好,而要具体问题具体分析

8.小结:什么是学习

(1)数据->模型

(2)特殊->一般

(3)样本空间->版本空间

Part4 机器学习理论的发展历程

1.推理期(二十世纪五十到七十年代初):机器要有逻辑推理能力,Newell和Simon的”逻辑推理家“

2.知识期(二十世纪七十年代中期):机器要有知识,Feigenbaum的”知识工程“

3.学习期(至今)

(1)连接主义:基于神经网络,例如”感知机“,BP算法

(2)符号主义:基于逻辑表示,例如”结构学习系统“,归纳逻辑程序设计(ILP)

(3)决策主义:基于决策理论,例如”学习机器“,决策树

(4)统计主义:基于统计理论,例如SVM,核方法

相关文章

网友评论

      本文标题:机器学习笔记(1)

      本文链接:https://www.haomeiwen.com/subject/iuglgftx.html