引言
机器学习:从数据中产生模型以及优化的过程。
基本概念
数据集:数据
样本(示例):数据集中每一个事件或对象
属性(特征):事件或对象的性质
属性值:属性的取值
属性空间(样本空间,输入空间):各个属性张成的空间
特征向量:各个属性的取值在空间中对应的向量
学习(训练):从数据中获得模型的过程
训练样本:训练中使用的样本
训练集:所有训练样本组成的集合
假设:各种可能的模型对应数据潜在的规律被称为假设
真实:数据潜在的规律自身
标记:训练样本的结果信息
样例:有标记的样本
标记空间(输出空间):各个样本标记的集合
分类:预测值是离散型的机器学习过程
回归:预测值是连续性的机器学习过程
测试:使用模型对新样本进行预测的过程
聚类:学习的过程中对样本进行分类(没有标记)
簇:聚类得到的各个类
监督学习:有标记信息的学习过程
无监督学习:没有标记信息的学习过程
独立同分布:使用的每个样本假定满足相互独立,相同分布的假设
假设空间
归纳学习是指从样本中学习的过程,其中狭义的归纳学习要求在学习的过程中总结到了特定的概念,这里的概念大概指通过什么样的属性组合可以得到什么样的结果。各种属性所有的属性值可以组成各种各样的假设,这些假设的集合叫做假设空间。通过训练样本和假设的对比不断删除不满足的假设,最终多会剩下一些假设都和训练集一致,这些假设的集合叫做版本空间。
归纳偏好
机器学习最终得到一种确定的模型才具有意思,就需要从版本空间中选择一种最佳的模型,对于一种模型的偏好就叫做归纳偏好。这里有一个通用的原则:奥卡姆剃刀,选择模型的时候可以选择其中最”简单“的模型,但是对于"简单"的定义又没有明确的标准,因此需要结合实际情况具体分析。
NFL定理证明:当我们假定各种“问题“等概率出现的时候,所有算法的期望性能都是相同的,因此抛开实际问题比较算法的优劣是没有任何意义的。所以,需要结合具体的数据以及实际情况来进行选择。
例子
假设我们有一组数据,记录了一些西瓜的三个属性,色泽,根蒂,敲声;一个标记,好或者坏,每个属性有三个不同的取值。我们想要总结一个规律,不切开西瓜,通过西瓜的外在属性来判断西瓜的好坏。
首先假设采用"好瓜<->(色泽=?)^(根蒂=?)^(敲声=?)"的形式,那么假设空间的数目就是:4x4x4+1=65个。然后根据我们的数据来进行筛选,得到版本空间,在通过算法的偏爱最后选择模型。
网友评论