机器学习是人工智能的一个重要分支。什么是机器学习?以下是两种解释:
(1)机器学习算法是一类从数据中分析获得规律,并利用规律对未知数据进行预测的算法。
(2)机器学习就是通过算法,使得机器能从大量历史数据中学习规律,从而对新的样本做智能识别或对未来做预测。
机器学习通常包括下面几种类别:
(1)监督学习从给定的训练数据集中学习出一个函数,当新的数据到来时,可以根据这个函数预测结果。监督学习的训练集要求包括输入和输出,或者说是特征和目标,训练集中的目标是由人标注的。常见的监督学习算法包括回归分析和统计分类。
(2)无监督学习与监督学习相比,训练集没有人为标注的结果。常见的无监督学习算法有聚类。
(3)增强学习通过观察来学习做成更有效的动作。每个动作都会对环境有所影响,学习对象根据观察到的周围环境的反馈来做出判断。
文/黄成甲机器学习的对象是特征
机器学习需要一个精致的引擎和相当专业的知识来设计一个特征提取器,把原始数据(如图像的像素值)转换成一个适当的内部特征表示或特征向量,然后对输入的样本进行检测或分类。而特征学习是一套给机器灌入原始数据,就可以自动发现需要进行检测和分类的特征的方法。深度学习就是一种特征学习方法,把原始数据通过一些简单的但是非线性的模型转变成为更高层层次的、更加抽象的表达。通过足够多的转换的组合,非常复杂的函数也可以被学习。对于分类任务,高层次的表达能够强化输入数据的区分能力方面,同时削弱不相关因素。深度学习的核心方面是,各层的特征都不是利用人工工程来设计的,而是使用一种通用的学习过程从数据中学到的。
举个例子:如果我们分析把选橙子的问题定义成标准的机器学习问题。
随机选择一个市场上的橙子,作为我们要研究的目标。你可以用一个表格描述橙子的属性和类型的关系,每一行可以放一个橙子的数据,包括橙子的各种物理属性(Feature ):颜色、大小、形状、产地等,还有品尝时橙子的属性(Output Variables):甜度、成熟度、多汁度等。现在这就是一个多分类问题,或者是回归问题,自动从数据中学习出特征与橙子类型的各种关系等。如果用决策树算法,那么这个模型的样子就是你的规则库。当然,你也可以使用其他模型,比如线性模型,这样就是特征的线性组合了。下次你去买水果,采集了一个橙子的各个指标特征,扔进你的模型,模型就会告诉你这个橙子的各种属性。甚至你选择橙子的模型稍微变化下就可以选择香蕉了,这就叫迁移学习。甚至你的模型会随着新的样本、新橙子的种类,变得越来越好,越来越全面,增量学习。
监督学习(Supervised Learning)
监督学习是机器学习中一种典型的学习方法,顾名思义,监督式学习就是有个人在旁边看着你学习,随时纠正你学习中的错误。怎么纠正呢?对错误学习给予惩罚,对正确学习给予奖励。
监督式学习中,所有输入数据都被称为“训练数据”,每组数据实际上有两个部分构成:正确的训练集和错误的训练集,这两部分最好数量上相等,并且样本数量足够全,能覆盖到最多的情况。接下来,将训练这些数据并将识别和预测结果与实际的人为标定过的“训练数据”做比较,不断地调整模型,直到模型的预测结果达到一个预测的准确度。
无监督学习(Unsupervised Learning)
无监督学习,也就是没有“人”在旁边督促你学习,没有人为标定好的训练数据,没有告诉模型哪些数据是正确的,哪些是不正确的。在无监督学习中,学习模型是为了推断数据的内在结构。很常见的应用场景包括关联规则的学习即聚类等。比如说,我们讲苹果和香蕉混合在一起,并没有告诉模型苹果和香蕉的特征,模型自己去聚类学习,有可能学习出来很多种类别,除了特征相差较大的苹果和香蕉两种不同的水果外,还能发现某些苹果和香蕉的特殊品种,这种发现是由算法自己找出的。非监督学习的常见算法包括Apriori算法及K-Means算法。
增强学习(Reinforcement Learning)
增强学习也称为强化学习。增强学习就是将情况映射为行为,也就是去最大化收益。学习者并不是被告知哪种行为将要执行,而是通过尝试学习到最大增益的行为并付诸行动。也就是说增强学习关注的是智能体如何在环境中采取一系列行为,从而获得最大的累积回报。通过增强学习,一个智能体应该知道在什么状态下应该采取什么行为。RL是从环境状态到动作的映射的学习,我们把这个映射称为策略。
增强学习要解决的是这样的问题:一个能感知环境的自治agent,怎样通过学习选择能达到其目标的最优动作。强化学习目的是构造一个控制策略,使得Agent行为性能达到最大。Agent从复杂的环境中感知信息,对信息进行处理。Agent通过学习改进自身的性能并选择行为,从而产生群体行为的选择,个体行为选择和群体行为选择使得Agent作出决策选择某一动作,进而影响环境。
增强学习是指从动物学习、随机逼近和优化控制等理论发展而来,是一种无导师在线学习技术,从环境状态到动作映射学习,使得Agent根据最大奖励值采取最优的策略;Agent感知环境中的状态信息,搜索策略(哪种策略可以产生最有效的学习)选择最优的动作,从而引起状态的改变并得到一个延迟回报值,更新评估函数,完成一次学习过程后,进入下一轮的学习训练,重复循环迭代,直到满足整个学习的条件,终止学习。
网友评论