读书笔记 |《机器学习》的基本概念(二)

作者: rui_liu | 来源:发表于2017-10-26 16:04 被阅读218次

    -- 原创,除非授权,不得转载 2017.10.26 --

    上一篇文章介绍了热门的概念之后,这篇文章,讲机器学习里的基本术语。

    首先,我们要知道,机器学习,是输入大量的数据,利用算法,得到结果的过程。这些概念在机器学习里都有专业名词,知道了这些术语,才开启了机器学习的大门。

    问:PM为什么要学这些?
    答:知道了这些术语,你才能和程序猿哥哥们在同一频道上正常沟通。

    机器学习

    术语

    1. 关于数据的概念

    1.【样本/示例】:一条数据是关于一个事件或对象的描述。在坐标系里表示样本时,也称为【特征向量】。
    2.【数据集】:多条数据(样本)的集合。

    1. 【属性】:表示对象在某方面的表现或性质。如,颜色、声音。
    2. 【属性值】:属性上的取值。如,颜色值:红色。声音:清脆。
    3. 【属性空间】:属性张成的空间。如,颜色,声音,大小,作为三个坐标轴,用于描述西瓜🍉,它们在坐标系里张成的空间叫属性空间,也称为【样本空间】【输入空间】。

    4.【维数】:属性值的个数,称为维数。比如,颜色、声音、大小,构成了3维样本空间。

    放松一下
    2.关于学习过程的概念

    0.【模型】:泛指从数据中学得的结果。
    1.【训练/学习】:从数据中学得模型的过程。
    2.【训练数据】:训练过程中使用的数据。
    3.【训练样本】:训练数据中的每个样本。
    4.【训练集】 :训练样本组成的集合。

    1.【假设】:学得模型对应了关于数据的某种潜在规律,称为假设。
    2.【真相/真实】:这种潜在规律自身,称为真相。(只有上帝才知道真相,学习过程是为了逼近真相)
    3.【学习器】:给定了参数、数据的学习算法。(实例化了一个模型)

    稍等一下
    3.关于结果的概念

    0.【预测】:人类自己预先想到可能的结果。如,预测此模型能判别西瓜🍉的好坏。
    1.【标记】:训练样本的结果。如,颜色:红色,声音:清脆,大小:大,训练结果:好瓜。“好瓜”称为标记。
    2.【样例】:拥有了标记信息的样本,称为样例。
    3.【标记空间】:所有标记的集合。

    1.【泛化】:学得模型适用于新样本的能力。
    2.【测试】:学得模型后,用其对新样本进行预测的过程。比如,判断一条新数据是不是“好瓜”。
    3.【测试样本】:被测试的样本。

    至此,我们用新的术语来描述一下,机器学习的过程。

    我们用【多维】的数据【样本】进行【训练】,得到一些有【标记】的【训练样本】,以及找到了训练样本之间的规律【假设】,至此【学习器】初步完成。

    为了检验学习器对新样本的【泛化】能力,是否和我们的【预测】差不多,我们用【测试样本】进行【测试】。

    学会了开心吧
    4. 关于学习任务的术语

    【训练数据】可以使用有标记的样本,和无标记的样本。
    于是学习任务可划分为两大类:【监督学习】和【无监督学习】。其中,常用的任务有【分类】【回归】【聚类】。

    学习任务.png

    1.【监督学习】:训练数据【有】标记信息。

    • a.【分类】:对指定的模式进行识别,预测值是离散的。如,识别西瓜是“好瓜”或“坏瓜”。属于【监督学习】
      (离散在坐标轴上就是单个的点,如0,1,2。)
      (连续在坐标轴上就是一条线,如0-2上所有的点连线。)

      • 分类又分【二分类】和【多分类】。
      • 【二分类】:对两个类别的分类,两个类分别叫【正类】【反类】。如:好瓜(正类)、坏瓜(反类)。
      • 【多分类】:两个以上类别的分类。
    • b.【回归】:对指定的模式进行识别,预测值是连续的。如,识别西瓜的成熟度,0.81-0.99。属于【监督学习】

    2.【无监督学习】:训练数据【没有】标记信息。

    休息一下
    5.关于学习偏好的术语

    【偏好】:机器学习算法在训练过程中对某种类型假设的偏好。

    这个术语需要单独解释一下。我们用书中的例子。

    偏好

    学得的模型可以用上图表示。

    如,1. 色泽任意,根蒂蜷缩,敲声任意,的瓜,是好瓜。
    也可以是,2. 色泽任意,根蒂蜷缩,敲声清脆,的瓜,是好瓜。

    那么问题来了。

    一条新数据。色泽青绿,根蒂蜷缩,声音沉闷,的瓜,测试结果是什么?
    用1判别,是好瓜。
    用2判别,是坏瓜。
    改采用哪个?

    这就由学习器本身的【偏好】决定了。如果你的学习器偏好1,那就是好瓜。如果偏好2,结果就是坏瓜。结果唯一。

    又问:偏好怎么来的?能避免吗?
    答:偏好由训练样本,以及学习算法的学习程度决定。
    不能避免。没有偏好的学习器,时而判别为好瓜,时而判别为坏瓜,没有使用价值。

    又问:有没有什么一般性原则引导学习器建立“正确”(我想要的)偏好?
    答:有。如“奥卡姆剃刀:选择最简单的那个”
    或者,具体问题具体分析。这就需要PM对于问题的定义了~

    快结束啦

    总结

    所以,天下没有免费的午餐。所有的算法、数据都需要我们依据各自的问题和实际情况进行有目的的训练,没有一劳永逸的学习器。所以才需要PM这个职位。

    身为PM,你要知道你的问题是什么,解决手段是什么?你有什么数据,标记过了吗?预测是什么?技术能实现吗?模型怎么测试?什么结果就达到你的要求了?

    嗯,道阻且长,祝大家都成为合格的AI PM!


    -- 原创,除非授权,不得转载 2017.10.26 --

    我的目的是成为一名人工智能相关的产品经理。加油~

    相关文章

      网友评论

        本文标题:读书笔记 |《机器学习》的基本概念(二)

        本文链接:https://www.haomeiwen.com/subject/unghpxtx.html