这个系列是对前不久刚刚出版的李航老师的第三版《机器学习方法》的阅读笔记,希望与各位进行分享。
1、机器学习的特点
机器学习(machine learning)是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。机器学习也称为统计机器学习(statistical machine learning)。
机器学习的主要特点是:(1)机器学习以计算机及网络为平台,是建立在计算机及网络上的;(2)机器学习以数据为研究对象,是数据驱动的学科;(3)机器学习的目的是对数据进行预测与分析;(4)机器学习以方法为中心,机器学习方法构建模型并应用模型进行预测与分析;(5)机器学习是概率论、统计学、信息论、计算理论、最优化理论及计算机科学等多个领域的交叉学科,并且在发展中逐步形成独自的理论体系与方法论。赫尔伯特·西蒙曾对“学习”给出以下定义:“如果一个系统能够通过执行某个过程改进它的性能,这就是学习。”按照这一观点,机器学习就是计算机系统通过运用数据及统计方法提高系统性能的学习。
2、机器学习的对象
机器学习的研究对象是数据,它从数据出发,提取数据的特征,抽象出数据的模型,发现数据中的知识,又回到对数据的分析与预测中去。作为机器学习的对象,数据是多样的,包括存在于计算机及网络上的各种数字、文字、图像、视频、音频数据已经它们的组合。机器学习关于数据的基本假设是同类数据具有一定的统计规律性,这是机器学习的前提,这里的同类数据是指具有某种共同性质的数据,例如英文文章、互联网网页等,由于它们具有统计规律性,所以可以用概率统计方法处理它们。
3、机器学习的目的
机器学习用于对数据的预测与分析,特别是对未知新数据的预测与分析。对数据的预测可以使计算机更加智能化,或者说使计算机的某些性能得到提高;对数据的分析可以让人们获取新的知识,给人们带来新的发现。对数据的预测与分析是通过统计模型实现的。机器学习总的目标就是考虑学习什么样的模型和如何学习模型,以使模型对数据进行准确的预测与分析,同时也要考虑尽可能地提高学习效率。
4、机器学习的方法
机器学习的方法是基于数据构建概率统计模型从而对数据进行预测与分析,机器学习方法可以概括如下:从给定的、有限的、用于学习的训练数据集合出发,假设数据是独立同分布产生的;并且假设要学习的模型属于某个函数的集合,称为假设空间;应用某个评价准则,从假设空间中选取一个最优模型,使它对已知的训练数据及未知的测试数据在给定的评价准则下有最优的预测;最优模型的选取由算法实现。这样,机器学习方法包括模型的假设空间、模型选择的准则以及模型学习的方法,称为机器学习方法的三要素,简称为模型、策略和算法。
5、机器学习的重要性
(1)机器学习是处理海量数据的有效方法。
(2)机器学习是计算机智能化的有效手段。
(3)机器学习是计算机科学发展的一个重要组成部分。
网友评论