导读:
本节内容主要是介绍了机器学习的基本概念。包括机器学习究竟是要做些什么事情,机器学习所面对的对象是什么,要实现的目标是什么。
同时对于机器学习整门学科当中所可能接触到的一些概念和术语,进行了简单的说明。
机器学习的意义
通过计算的手段,利用经验来改善系统自身性能。
经验是以数据的形式存在的。
机器学习所研究的内容,就是在计算机上从数据产生模型的算法。
从数据中产生模型(model)——该算法称为“学习算法”(Learning Algorithm)
有了这样一个算法,我们把经验数据“喂”进去,系统就能基于这些数据产生模型。
而有了这样一个模型以后,在面对新的情况(也即新的数据),模型会给我们提供相应的判断。
总之:机器学习是研究“学习算法”的学问
模型:从数据中学得的结果(有文献用“模型”指示全局性结果;用“模式”指示局部性结果)
概念和术语:
1. 数据集 Data Set:一组记录的集合,其中每条记录是关于一个事件或对象的描述。
2. 示例 instance/ 样本 sample: 上述的每条记录,关于一个事件或对象的描述,为一个示例。
3. 属性 attribute/ 特征 feature:对象在某方面表现或性质的事项
4. 属性值 attribute value:属性上的取值
5. 属性空间 attribute space/ 样本空间 sample space/ 输入空间:属性所张成的空间
6. 特征向量feature vector:空间中每个点对应一个坐标向量,因此一个示例就可写成一个特征向量
7. 维数 dimensionality:每个示例的n个属性,称之为样本的维数
8. 学习learning/训练training:通过执行某个学习算法,从数据中学得模型
9. 训练数据training data: 训练过程中所使用的数据
10. 训练样本 training sample/训练示例/训练例 training instance: 训练数据中的每个样本
11. 训练集 training set: 训练样本组成的集合
12. 假设 hypothesis: 学得模型对应了关于数据的某种潜在的规律,也就是通过学习过程而得到的某种结论,称之为“假设”
13. 真相/真实 ground-truth: 这种潜在规律自身是真相,学习的过程就是为了找出或者逼近真相。
14. 学习器 learner:即模型。可以看做学习算法在给定数据和参数空间上的实例化。对于学习算法而言,一般是要配置相应的参数,使用不同的参数值或者采用不同的训练数据,将产生不同的结果。
15. 预测 prediction 与 样例 example:对于机器学习来说,仅仅有前面的训练数据(也即训练示例)是不够的,也无法完成“预测”的任务,因为并没有对结果的标识,因此,要将训练数据增加一个标签,这个标签作为标记信息,包含了示例的结果。这样的包含了标记结果的示例,称之为 样例。
16. 标记 label 与 标记空间 late space:对于上面所说道的标记信息,所有标记信息的集合,为 标记空间。
17. 分类 classification:欲预测的是离散值,这样的学习任务称之为分类。如判断是“好”还是“坏”,“合格”还是“不合格”等。
二分类 binary classification:只涉及两个类别的分类。可参考二进制的状态。这时候我们可以分为
正类 positive class 和 反类 negative class
多分类 Multi-class classification:如果分类类别多于两个,则是多分类
18. 回归 regression: 欲预测的是连续值,这样的学习任务是 回归。如:西瓜的成熟度为0.95还是0.37等。
19. 预测任务:预测任务就是对训练集(带有标记信息的样例集)进行学习,建立一个从输入空间X到输出空间Y的映射。X就是训练数据;Y就是“结果”,也就是标记。
对于二分类任务,Y={-1,+1}或{0,1}
对于多分类任务,|Y|>2
对于回归任务,Y=R,实数集
20. 测试 testing: 学得模型之后,对其进行预测的过程称之为测试,被预测的样本就是测试样本。
在学得f后,对于测试例x,可得到其预测标记 y=f(x)
21. 聚类 clustering: 是将训练集中的数据,根据某些属性或特征,分为若干个组,每个组为一个“簇”cluster,这些自动形成的簇可能会对应一些潜在的概念的划分
22. 学习任务可划分为两大类:根据训练数据是否带有标记信息
监督学习 supervised learning——分类、回归(带有标记信息)
无监督学习 unsupervised learning——聚类(没有标记信息)
23. 很好地适用于新样本,是机器学习的目标和任务。
24. 泛化 generalization: 学得模型适用于新样本的能力。具有强的泛化能力的模型能够很好地适用于整个样本空间。
假设空间
归纳 induction 和演绎 deduction 作为科学推理的两大基本手段,归纳是从特殊到一般的泛化过程,就是从具体的事实归结出一般性规律;演绎是从一般到特殊的特化过程,即从基础原理推演出具体状况。
对于机器学习而言,是“从样例中学习”,显然是一个归纳的过程,因此也成为“归纳学习”。
把学习过程看做一个在假设组成的空间中进行搜索的过程,搜索目标是找到与训练集匹配的假设。
对于该书的案例中,就是能够将训练集中的瓜判断正确(是否为好瓜)。
假设的表示如果被确定,那么假设空间的大小就能被确定下来。
比如,假设空间为“色泽、根蒂、敲声”的可能取值所形成的假设组成,而“色泽”就可以为“绿、黑、白”三种可能取值,但是也有一种情况就是“色泽”的取值其实不重要,什么颜色都行,可以用通配符“*”表示,这样一来,其实“色泽”的取值是有四个“绿、黑、白、* ”
假如上述三个特征(属性)的取值都是类似于“色泽”一样的情况(3种可能值),那么假设空间的大小就是4*4*4=64
但是此时要考虑一个极端情况,也就是“好瓜”这个概念本身就不成立,根本找不到一个所谓的“好瓜”,此时,该种假设就是空集Φ。
因此最终的假设空间大小应该是 64+1=65
网友评论