不知道你在生活中是否留意过这样的现象:我们可以根据相貌轻易区分出日本人、韩国人和泰国人,却对英国人、俄罗斯人和德国人脸盲。造成这种现象的原因一方面在于日韩泰都是我国的邻国,观察这些国家普通人的机会较多;另一方面,抛开衣妆的因素不论,相同的人种也使得面貌特征更加容易进行比较和辨别。
因此,根据大量的观察就能总结出不同国别的相貌特点:中国人下颌适中,日本人长脸长鼻,韩国人眼小颧高,泰国人肤色暗深。在做出路人甲来自日本或是路人乙来自韩国的判断时,正是以这些特征作为依据的。
上面的例子就是简化版的人类学习机制:从大量现象中提取反复出现的规律与模式。这一过程在人工智能中的实现就是机器学习。
![](https://img.haomeiwen.com/i12171878/6fbe132e4b8f5468.jpg)
从形式化角度定义,如果算法利用某些经验使自身在特定任务类上的性能得到改善,就可以说该算法实现了机器学习。而从方法论的角度看,机器学习是计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的学科。
机器学习可说是从数据中来,到数据中去。假设已有数据具有一定的统计特性,则不同的数据可以视为满足独立同分布的样本。机器学习要做的就是根据已有的训练数据推导出描述所有数据的模型,并根据得出的模型实现对未知的测试数据的最优预测。
在机器学习中,数据并非通常意义上的数量值,而是对于对象某些性质的描述。被描述的性质叫作属性,属性的取值称为属性值,不同的属性值有序排列得到的向量就是数据,也叫实例。
黄种人相貌特征的典型属性便包括肤色、眼睛大小、鼻子长短、颧骨高度。标准的中国人实例甲就是属性值{浅、大、短、低 }的组合,标准的韩国人实例乙则是属性值{浅、小、长、高}的组合。
但在实际生活中,每个国家的人都不是同一个模子刻出来的,其长相自然也会千差万别,因而一个浓眉大眼的韩国人可能被误认为中国人,一个肤色较深的日本人也可能被误认为泰国人。
同样的问题在机器学习中也会存在。一个算法既不可能和所有训练数据符合得分毫不差,也不可能对所有测试数据预测得精确无误。因而误差性能就成为机器学习的重要指标之一。
在机器学习中,误差被定义为学习器的实际预测输出与样本真实输出之间的差异。误差可以进一步分为训练误差和测试误差两类。训练误差指的是学习器在训练数据集上的误差,也称经验误差;测试误差指的是学习器在新样本上的误差,也称泛化误差。
在人类的学习中,有的人可能有高人指点,有的人则是无师自通。在机器学习中也有类似的分类。根据训练数据是否具有标签信息,可以将机器学习的任务分成以下三类。
①监督学习:基于已知类别的训练数据进行学习;
②无监督学习:基于未知类别的训练数据进行学习;
③半监督学习:同时使用已知类别和未知类别的训练数据进行学习。
受学习方式的影响,效果较好的学习算法执行的都是监督学习的任务。即使号称自学成才、完全脱离了对棋谱依赖的 AlphaGo Zero,其训练过程也要受围棋胜负规则的限制,因而也脱不开监督学习的范畴。
网友评论