第一章 绪论
1.1 引言
日常生活中,我们人类依据经验,对未知的事物进行预测。
机器学习致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。
机器学习的主要内容是关于在计算机上从数据中产生“模型”(model)的算法,即“学习算法”(learning algorithm)。有了学习算法,我们把经验数据提供给他,它就能基于这些经验数据产生模型,在面对新的情况的时候,模型会给我们提供相应的判断。
1.2 基本术语
数据集(data set)
示例(instance) 或 样本(sample) 或 特征向量(feature vector)
属性(attribute) 或 特征(feature)
属性值(attribute Value)
属性空间(attribute space) 由属性张成
样本的维数(dimensionality)
样例(example) 由 示例 ——> 标记
1.3 假设空间
归纳(induction)和演绎(deduction)是 科学推理的两大基本手段,
前者是从特殊到一般的“泛化”(generalization)过程,即从具体的事实到一般性规律;
后者是从一般到特殊的“特化”(specialization)过程,即从基础原理推演出具体状况;
我们把学习过程看作一个在所有假设(hypothesis)组成的空间中进行搜索的过程,搜索目标是找到与训练集“匹配”(fit)的假设,即能够将训练集中的结果判断正确的假设。
假设的表示一旦确定下来,假设的空间及其规模大小就确定了。
产生模型的过程就是在假设空间中不断删除与正例不一致 或 与假例一直的假设,最终得到与训练集一直的假设。但很多时候最终得到的假设不止一个,而是一个假设集合,我们称这个假设集合为“版本空间”(version space)
1.4 归纳偏好
机器学习算法在学习过程中对某种类型假设的偏好,称为“归纳偏好”(inductive bias)
任何一个有效的机器学习算法必有其归纳偏好
“奥卡姆剃刀”(Accam's razor)是一种常用的、自然科学研究中最基本的原则,即“若多个假设与观察一致,则选择最简单的那个”
算法的归纳偏是否与问题本身匹配,大多数时候将直接影响算法能够取得好的性能
网友评论