机器学习的两大应用场景——回归与分类
回归(regression)和分类(classification)是两种最常见的机器学习问题类型,如下图所示。
image.png回归问题通常用来预测一个值,其标签的值是连续的。例如,预测房价、未来的天气等任何连续性的走势、数值。比较常见的回归算法是线性回归(linear regression)算法以及深度学习中的神经网络等。
分类问题是将事物标记一个类别标签,结果为离散值,也就是类别中的一个选项,例如,判断一幅图片上的动物是一只猫还是一只狗。分类有二元分类和多元分类,每类的最终正确结果只有一个。分类是机器学习的经典应用领域,很多种机器学习算法都可以用于分类,包括最基础的逻辑回归算法、经典的决策树算法,以及深度学习中的神经网络等。还有从多元分类上衍生出来的多标签分类问题,典型应用如社交网站中上传照片时的自动标注人名功能,以及推荐系统——在网站或者App中为同一个用户推荐多种产品,或把某一种产品推荐给多个用户。
机器学习的其他应用场景
当然,除回归问题和分类问题之外,机器学习的应用场景还有很多。比如,无监督学习中最常见的聚类 (clustering)问题是在没有标签的情况下,把数据按照其特征的性质分成不同的簇(其实也就是数据分类);还有一种无监督学习是关联规则,通过它可以找到特征之间的影响关系。
又比如时间序列,指在内部结构随时间呈规律性变化的数据集,如趋势性数据、随季节变化的数据等。时间序列问题其实也就是和时间、周期紧密关联的回归问题。具体应用场景包括预测金融市场的波动,推断太阳活动、潮汐、天气乃至恒星的诞生、星系的形成,预测流行疾病传播过程等。
还有结构化输出。通常机器学习都是输出一个答案或者选项,而有时需要通过学习输出一个结构。什么意思呢?比如,在语音识别中,机器输出的是一个句子,句子是有标准结构的,不只是数字0~9这么简单(识别0~9是分类问题),这比普通的分类问题更进一步。具体应用场景包括语音识别——输出语法结构正确的句子、机器翻译——输出合乎规范的文章。
还有一部分机器学习问题的目标不是解决问题,而是令世界变得更加丰富多彩,因此AI也可以进行艺术家所做的工作,例如以下几种。Google的Dreamwork可以结合两种图片的风格进行艺术化的风格迁移。 生成式对抗网络GAN能造出以假乱真的图片。挖掘数字特征向量的潜隐空间,进行音乐、新闻、故事等创作。
我们可以把这种机器学习应用称为生成式学习。
还有些时候,机器学习的目标是做出决定,这时叫它们决策性问题。决策性问题本质上仍然是分类问题,因为每一个决策实际上还是在用最适合的行为对环境的某一个状态进行分类。比如,自动驾驶中的方向(左、中、右),以及围棋中的落点,仍然是19×19个类的其中之一。具体应用场景包括自动驾驶、智能体玩游戏、机器人下棋等。在很多决策性问题中,机器必须学习哪些决策是有效的、可以带来回报的,哪些是无效的、会带来负回报的,以及哪些是对长远目标有利的。因此,强化学习是这种情况下的常用技术。
总体来说,机器学习的诀窍在于要了解自己的问题,并针对自己的问题选择最佳的机器学习方法(算法),也就是找到哪一种技术最有可能适合这种情况。如果能把场景或任务和适宜的技术连接起来,就可以在遇到问题时心中有数,迅速定位一个解决方向。下图将一些常见的机器学习应用场景和机器学习模型进行了连接
image.png
网友评论