美文网首页
机器学习笔记(1)

机器学习笔记(1)

作者: 惊起却回首 | 来源:发表于2018-09-08 22:06 被阅读0次

    机器学习笔记(1)

    参考书:周志华《机器学习》

    第1章 绪论

    Part1 基本概念

    1.机器学习的研究内容:如何从数据产生模型(学习算法)

    2.数据集样本属性属性值

    3.属性空间输入空间):由属性张成的向量空间,由此,每一个样本可以表示为一个向量

    4.学习训练):由数据建模的过程,所使用的数据称为训练数据,相应的样本称为训练样本,数据集称为训练数据集

    5.假设真实:训练所得模型为假设,规律本身为真实,学习要使假设尽可能逼近真实

    6.标记样例:已经发生的已知的结果称为标记,拥有标记的样本称为样例

    7.标记空间输出空间):由标记张成的空间,每一个样例表示为一个向量

    8.泛化能力:模型不能只针对样例有效,对于未知的新样本也要有效,这种能力称为泛化

    Part2 机器学习的分类

    1.按有无样本空间分:

    • 有监督学习,包括分类回归
    • 无监督学习,包括聚类

    2.按预测值的类型分:

    • 分类:预测值离散预定
    • 回归:预测值连续
    • 聚类:预测值离散不预定,其自动形成的组称为

    Part3 机器学习的抽象过程

    1.科学推理的基本手段:

    • 归纳:由特殊到一般,泛化
    • 演绎:由一般到特殊,特化

    2.机器学习一般是指归纳学习

    3.归纳学习分为:

    • 广义:模型视为黑箱
    • 狭义:能抽象出概念,又称概念学习

    4.假设空间:由所有假设构成的空间,学习的过程就是在假设空间中找到最合适的假设(也就是模型)的过程

    例如:有以下数据集

    样本序号(采样的西瓜) 属性A(色泽) 属性B(根蒂) 属性C(敲声) 标记Y(是否为好瓜)
    1 0(青绿) 0(蜷缩) 0(响亮) 1
    2 1(乌黑) 0(蜷缩) 0(响亮) 1
    3 0(青绿) 1(硬挺) 1(沉闷) 0
    4 1(乌黑) 0(蜷缩) 1(沉闷) 0

    其假设空间为{(0,0,0),(0,0,1),……(1,1,1)}的所有子集的集合,从其中搜索到(0,0,0)+(1,0,0)是符合的,则其假设为{(0,0,0),(1,0,0)},可以构建模型,Y=(非B)(非C),这就抽象出了一个概念:“根蒂蜷缩且敲声响亮的瓜为好瓜”,这个例子是概念学习中最简单的一类——布尔值概念学习*

    5.版本空间 :符合条件的假设可能不止一个,所有符合条件的假设构成的空间为版本空间

    6.归纳偏好 :事先无法判断版本空间中哪一个假设最好,但又必须输出一个确定的模型,因此一个学习算法必须有归纳偏好,常用如下:

    • 尽可能特殊复杂
    • 尽可能一般简单,即奥卡姆剃刀法则

    7.NFT定理 :学习算法不影响总误差,即"No Free Lunch",所以我们不能一概而论说某个学习算法最好,而要具体问题具体分析

    8.小结:什么是学习

    (1)数据->模型

    (2)特殊->一般

    (3)样本空间->版本空间

    Part4 机器学习理论的发展历程

    1.推理期(二十世纪五十到七十年代初):机器要有逻辑推理能力,Newell和Simon的”逻辑推理家“

    2.知识期(二十世纪七十年代中期):机器要有知识,Feigenbaum的”知识工程“

    3.学习期(至今)

    (1)连接主义:基于神经网络,例如”感知机“,BP算法

    (2)符号主义:基于逻辑表示,例如”结构学习系统“,归纳逻辑程序设计(ILP)

    (3)决策主义:基于决策理论,例如”学习机器“,决策树

    (4)统计主义:基于统计理论,例如SVM,核方法

    相关文章

      网友评论

          本文标题:机器学习笔记(1)

          本文链接:https://www.haomeiwen.com/subject/iuglgftx.html