机器学习入门——基本概念(1)

作者: 阡陌哥哥 | 来源:发表于2018-05-03 10:41 被阅读18次

    朝霞不出门,晚霞行千里。这是人们在生活中总结出来的天气规律。当人们看到早晨的云霞的时候,便知道今天极有可能下雨,不便出门。晚霞告诉人们接下来不会有雨。

    在这里“朝霞”和“有雨”,“晚霞”和“无雨”之间存在的关系是人们通过无数次的生活见闻总结出来的,也就是说,是人们学习得来的。

    “朝霞不出门,晚霞行千里”的原理:先先说说霞的形成。霞是由于日出和日落前后,阳光通过厚厚的大气层,被大量的空气分子散射的结果。当空中的尘埃、水汽等杂质愈多时,其色彩愈显著。如果有云层,云块也会染上橙红艳丽的颜色。朝霞、晚霞这里指的主要是反射霞。早晨当太阳照射在西边的云彩上经过云彩的散射,使云彩呈深红色,这就是朝霞。它说明西边天空已经有云存在,而早上起云主要是由于天气系统性原因而形成的。未来随着天气系统东移,本地将逐渐转受其影响,天气将转阴雨。另一方面朝霞说明早晨天空有云彩存在,表明天空状态不十分稳定,随着太阳升高,热力作用增强,对流进一步发展,云也会进一步发展,容易造成阴雨天气。晚霞是指夕阳斜照在东边天空上的云彩,使云彩呈深红色。在这种情况下,一般西部天空没有云彩,太阳才能直接照射在东边天空,而东边天空上的云彩只会随着时间离本地愈来愈远的,不会影响本地的,而西边晴朗的天空也将会随时间逐渐移来,天气晴好。另一方面,晚上由于太阳下山,空气层结逐渐恢复稳定,对流减弱,原来白天生成的云彩也将归于消散,天气一般晴好。

    既然人可以通过学习,掌握预测天气的本领,那么计算机能不能做到呢?

    答案是肯定的,但是我们这里强调的是计算机能否具有学习能力,而非要介绍怎么做天气预报。

    和人一样,机器在学习“本领”前,必须要有学习材料,对机器来说是数据,在这里我们称之为样本。如果我们要预测一个西瓜是否是好瓜,那么需要先拿到一些样本,通过学习这些样本数据,预测其他瓜的好坏。

    数据集
    数据集中的每条记录(一行),称为一个“示例”或“样本”,每个样本都有属性,比如色泽,其中青绿是属性值。属性张成的空间称为属性空间(也叫样本空间或输入空间),如我们把色泽、根蒂、敲声作为三个坐标轴,则它们张成一个用于描述西瓜的三维空间,空间中每个(样本)点对应一个坐标向量,比如(青绿,蜷缩,浊响),称为特征向量

    现在,我们准备好了用于训练计算学习判断瓜的质量的数据,称为训练集。计算机所要做的事情就是找到一个模型,可以将样本空间中的点进行分类(是否好瓜)。

    在这里,训练集中每个样本都已被打上标签(是否是好瓜),即我们知道样本本来应当是什么类,机器学习这种拥有标记信息的数据叫做监督学习,而无监督学习则是训练没有标签的数据,此外还有半监督学习、强化学习等。

    半监督学习的数据有部分标签,强化学习则是指智能系统从环境到行为映射的学习,以使奖励信号(强化信号)函数值最大,有环境提供的强化信号是对产生动作的好坏做一种评价,而不是告诉如何去产生动作。

    这里应当提醒的是,并不是让计算机记住所有的情况,见到新样本时进行搜索匹配,而是假设这种“属性”到“分类”的映射符合某个函数(模型),学习的过程就是找到这个模型。当然,对一些数据可能符合的模型,我们可以做各种假设,所有可能的函数组成的空间,称为假设空间

    西瓜问题的假设空间
    在训练数据过程中,我么可以减去那些与正例(或反例)样本不一致的假设,最终得到一个与训练集一致的假设集合(称“版本空间”),训练集使用这些假设都能正确分类。

    版本空间中的假设并不都是我们需要的,即使它们在训练集中表现良好,但面对新的样本时,还有可能产生不同的输出结果。根据我们对数据的理解,往往选择具有一定偏向性的假设,比如由于某种原因,更相信根蒂的作用,于是会选择假设(色泽=;根蒂=蜷缩;敲声=),这样虽某种假设的偏好,称为归纳偏好(简称偏好)。

    更一般的,“奥卡姆剃刀”原理可以帮助算法选择“正确的”偏好,即若有多个假设与观察一致,则选择最简单的那个,所以这个原理被称为“如无必要,勿增实体”。但是,“奥卡姆剃刀”得到的假设一定正确吗?请看下图

    没有免费的午餐
    上面两种情况面对不同的问题,是完全有可能出现的。这里说的“优于”指的是在新样本上的表现,称为泛化能力

    没有免费的午餐定理指没有一种算法比随机胡猜的效果好,在机器学习中表示:若对于某些问题算法La学得的模型更好,那么必然存在另一些问题,这里算法Lb学得的模型更好.

    不知道读者有没有发现,前面假设空间中的假设是可以随意假设的,但是脱离实际应用需求,空谈“什么学习算法更好”是没有意义的,所以在实际中,必须根据实际问题的应用场景,作出相应的假设,这才是“没有免费午餐”定理最重要的寓意。

    参考:百度知道
    《机器学习》周志华
    https://blog.csdn.net/u013238941/article/details/79091252

    相关文章

      网友评论

        本文标题:机器学习入门——基本概念(1)

        本文链接:https://www.haomeiwen.com/subject/zbvcrftx.html