美文网首页
第一章 绪论

第一章 绪论

作者: 康君爱上了蕊酱 | 来源:发表于2018-08-14 10:16 被阅读0次

    引言

    机器学习:从数据中产生模型以及优化的过程。

    基本概念

    数据集:数据
    样本(示例):数据集中每一个事件或对象
    属性(特征):事件或对象的性质
    属性值:属性的取值
    属性空间(样本空间,输入空间):各个属性张成的空间
    特征向量:各个属性的取值在空间中对应的向量
    学习(训练):从数据中获得模型的过程
    训练样本:训练中使用的样本
    训练集:所有训练样本组成的集合
    假设:各种可能的模型对应数据潜在的规律被称为假设
    真实:数据潜在的规律自身
    标记:训练样本的结果信息
    样例:有标记的样本
    标记空间(输出空间):各个样本标记的集合
    分类:预测值是离散型的机器学习过程
    回归:预测值是连续性的机器学习过程
    测试:使用模型对新样本进行预测的过程
    聚类:学习的过程中对样本进行分类(没有标记)
    簇:聚类得到的各个类
    监督学习:有标记信息的学习过程
    无监督学习:没有标记信息的学习过程
    独立同分布:使用的每个样本假定满足相互独立,相同分布的假设

    假设空间

    归纳学习是指从样本中学习的过程,其中狭义的归纳学习要求在学习的过程中总结到了特定的概念,这里的概念大概指通过什么样的属性组合可以得到什么样的结果。各种属性所有的属性值可以组成各种各样的假设,这些假设的集合叫做假设空间。通过训练样本和假设的对比不断删除不满足的假设,最终多会剩下一些假设都和训练集一致,这些假设的集合叫做版本空间

    归纳偏好

    机器学习最终得到一种确定的模型才具有意思,就需要从版本空间中选择一种最佳的模型,对于一种模型的偏好就叫做归纳偏好。这里有一个通用的原则:奥卡姆剃刀,选择模型的时候可以选择其中最”简单“的模型,但是对于"简单"的定义又没有明确的标准,因此需要结合实际情况具体分析。

    NFL定理证明:当我们假定各种“问题“等概率出现的时候,所有算法的期望性能都是相同的,因此抛开实际问题比较算法的优劣是没有任何意义的。所以,需要结合具体的数据以及实际情况来进行选择。

    例子

    假设我们有一组数据,记录了一些西瓜的三个属性,色泽,根蒂,敲声;一个标记,好或者坏,每个属性有三个不同的取值。我们想要总结一个规律,不切开西瓜,通过西瓜的外在属性来判断西瓜的好坏。

    首先假设采用"好瓜<->(色泽=?)^(根蒂=?)^(敲声=?)"的形式,那么假设空间的数目就是:4x4x4+1=65个。然后根据我们的数据来进行筛选,得到版本空间,在通过算法的偏爱最后选择模型。

    相关文章

      网友评论

          本文标题:第一章 绪论

          本文链接:https://www.haomeiwen.com/subject/pxymbftx.html