最近在看周志华教授写的一本《机器学习》的书,听到机器学习这个概念是很久之前的事,但真正看书去了解倒是头一次,这本书便是同学分享过来的一个pdf版本,只是不是特别习惯看电子版的书,尤其是需要做笔记的时候,因此便去打印出来了,看起来不快,里面基本上涉及到的主要是矩阵论和数理统计的知识,需要读者相对较好的数学基础,才能将一些推导、原理性的东西弄明白,不然大概也就只能看一下基本的概念,深入的学习是很难进行下去的。
首先需要明确一个概念:什么是机器学习?或者说机器学习到底是如何实现的?我们作为人,很多时候进行判断的时候是通过以往的经验进行的,比如你购买西瓜时,你会通过观察其颜色、根蒂的样子以及拍一下西瓜听听响声,这都是很正常的做法,即根据经验进行判断。那么机器是如何进行学习的呢?如我们所熟知的那样,机器很多时候只能进行逻辑判断或者说计算,但无法识别比如西瓜的根蒂的形状,我们需要通过属性及其属性值来赋予给计算机,让它能够根据属性值进行判断。在计算机系统中,“经验”通常以“数据”的形式存在,因此,机器学习所研究的主要内容,是关于在计算机上从数据中产生“模型”(model)的算法,即“学习算法”(learning algorithm)。
基本术语了解:
数据集(data set):记录数据的一个集合,其中每条记录是关于一个事件或对象的描述,称为一个“示例”(instance)或“样本”(sample)。
属性(attribute): 反应事件或对象在某方面的表现或性质的事项,称为“属性”(attribute)或“特征”(feature).属性上的取值称为“属性值”(attribute value)。属性张成的空间称为“属性空间”(attribute space)。属性组成的一个坐标集合,可以视作一个坐标集,而一个坐标可以对应一个空间向量,因此我们也可以称一个示例为“特征向量”(feature vector)。
学习(learning):从数据中学得模型的过程称为“学习”(learning)或“训练”(training),这个过程通过某个学习算法来完成。训练过程中使用的数据称为“训练数据”(training data).
网友评论