以南京大学周志华老师所编《机器学习》为教材进行基本概念及算法的初步学习,同时辅以《机器学习实战》对具体案例进行探究。
第1章 绪论
1.1 引言
机器学习:致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。
在计算机系统中,“经验”通常以“数据”形式存在,因此,机器学习所研究的主要内容,是关于计算机上从数据中产生“模型”(model)的算法,即“学习算法”(learining algorithm)。
1.2 基本术语
训练数据(训练样本、训练集)
学习 / 训练
假设(真想 / 真实)
标记——样例$(x_i,y_i)$
- 预测对象为离散值,此类学习任务为“分类”
- 只涉及两个类别的“二分类”:正类、反类
- 设计多个类别“多分类”
- 预测对象为连续值,此类学习任务为“回归”
测试
测试样本
聚类
聚类有助于了解数据内在的规律,为深入分析数据建立基础。(一般情况,聚类形成的“簇”之前是未知的)
根据训练数据是否有标记信息,学习任务认为两类:
- 监督学习(分类、回归)
- 无监督学习(聚类)
机器学习的目标是:使学得的模型能很好地适用于“新样本”,而不仅仅在训练样本上工作的好。
学得模型适用于新样本的能力,称为“泛化”能力。具有强泛化能力的模型能够适用于整个样本空间。
1.3 假设空间
归纳学习
- 广义:从样例中学习
- 狭义:从训练数据集中学得概念
概念学习(概念形成)研究、应用较少,要学得泛化性能好且语义明确的概念很困难,现有技术大多产生“黑箱”模型。
概念学习中最基本的是布尔概念学习,即对“是”、“不是”这样的可表示为 0 / 1 布尔值的目标概念的学习。
学习过程可看作一个在所有假设组成的空间中进行搜索的过程,搜索的目标是找到与训练集“匹配”的假设。假设的表示一旦确定,假设空间及其规模大小就确定了。
现实问题中面临很大的假设空间,但学习过程基于有限训练集进行,因此可能有多个假设与训练集一致,存在着一个与训练集一致的“假设集合”,我们称之为“版本空间”
1.4 归纳偏好
机器学习算法在学习过程中对某种类型假设的偏好,称为“归纳偏好”或简称偏好。
任何一个有效的机器学习算法必有其归纳偏好,否则它将被假设空间中看似在训练集上“等效”的假设所迷惑,而无法产生确定的学习结果。
归纳偏好可以看作学习算法自身在一个可能很庞大的假设空间中对假设进行选择的启发式或“价值观”。
一般性的原则引导算法确立“正确的”偏好:奥卡姆剃刀原则。即,若有多个假设与观察一致,则选最简单的那个。
在这个原则下,认为“更平滑”以为只“更简单”。
奥卡姆剃刀并非唯一可行的原则,而且奥卡姆剃刀本身存在不同的诠释。
归纳偏好对应了学习算法本身所做出的关于“什么样的模型更好”的假设。
无论学习算法多聪明、多笨,它们的期望性能竟然相同!这就是“没有免费的午餐”定理(No Free Lunch Theorem,简称NFL定理)。
NFL定理有一个重要前提:所有“问题”出现的机会相同、或所有问题同等重要。但实际情形并非如此。很多时候我们只关注正在试图解决的具体任务。
NFL定理最重要的寓意,是让我们清楚地认识到,脱离具体问题,空泛地谈论“什么学习算法更好”毫无意义。若考虑所有潜在问题,则所有学习算法都一样好,要谈论算法的相对优劣,必须针对具体的学习问题。
1.5 发展历程
机器学习是人工智能(artificial intelligence)发展到一定阶段的必然产物。
由人来把知识总结出来再教给计算机是相当困难的。于是,机器学习出现。
深度学习:所谓深度学习,狭义地说就是“很多层”的神经网络。
1.6 应用现状
“数据分析”恰是机器学习技术的舞台。
科学研究的基本手段从传统的“理论+实验”走向现在的“理论+实验+计算”,乃至出现“数据科学”这样的提法,机器学习的重要性日趋显著,因为“计算”的目的往往就是数据分析,而数据科学的核心也恰是通过分析数据来获取价值。
数据分析利用,很多人会想到“数据挖掘”(data mining)。简单探讨数据挖掘与机器学习的联系。
数据挖掘领域在二十世纪九十年代形成,它受到很多学科领域的影响,其中数据库、机器学习、统计学无疑影响最大。
数据挖掘从海量数据中发掘知识,必然涉及对“海量数据”的管理和分析。大体来说,数据库领域的研究为数据挖掘提供数据管理技术,而机器学习和统计学的研究为数据挖掘提供数据分析技术。
由于统计学界的研究成果通常需要经由机器学习研究来形成有效的学习算法,之后再进入数据挖掘领域,因此从这个意义上说,统计学主要是通过机器学习对数据挖掘发挥影响,而机器学习领域和数据库领域则是数据挖掘的两大支撑。
机器学习备受瞩目当然由于它已成为智能数据分析技术的创新源泉,但机器学习还有另一个重要意义,即通过建立一些关于学习的计算模型来促进我们理解“人类如何学习”。而“人类如何学习”无疑是一个有关自我本识的重大问题,从这个意义上说,机器学习不仅在信息科学中占有重要地位,还具有一定的自然科学探索色彩。
网友评论