美文网首页
林轩田机器学习基石(1):The Learning Proble

林轩田机器学习基石(1):The Learning Proble

作者: nlpjoe | 来源:发表于2019-01-05 12:47 被阅读16次

    欢迎关注公众号-AI圈终身学习。
    公众号首页回复“机器学习”查看所有系列文章。


    机器学习基石课程大概八周,分为四个部分:

    • When Can Machines Learn?
    • Why Can Machines Learn?
    • How Can Machines Learn?
    • How Can Machines Learn Better?

    课程主页:
    http://www.csie.ntu.edu.tw/~htlin/

    本节笔记Lecture 1-The Learning Problem包含内容如下:

    • When Can Machines Learn?(什么时候用机器学习)
      • What is Machine learning(什么是机器学习)
      • Applications of Machine Learning(机器学习应用)
      • Components of Machine Learning(机器学习组成部分)
      • Machine Learning and Other Fields(机器学习和其他领域)

    一、什么是机器学习(What is Machine Learning)

    机器学习和学习的异同是什么?首先学习和机器学习的共通性就是观察,他们也有差异性。

    1.1 学习的流程

    学习的主体是人,人通过观察(听、观、触觉)出发,经过脑袋的内化转化,变成有用的技能。流程图如下:

    image

    1.2 机器学习的流程

    机器学习的主体是电脑,电脑通过观察资料(语料),经过电脑的CPU运作,变成对电脑有用的技能。流程图如下:

    image

    什么是“变成有用的技能”?技能就是在某种领域做事靠谱,比如

    • 对于人,自己的英语能力、数学能力得到了提高
    • 对于电脑,预测股票的能力得到了提高

    因此机器学习更准确的定义是:
    通过观察计算有规律的数据,根据某种评价指标,提升电脑性能。
    流程图如下:


    image

    1.3机器学习的三个关键要素

    什么时候适合使用机器学习,林老师总结三个关键要素如下:

    1. 编程定义不明确,普通编程难以完成的任务
    2. 资料数据具有某种潜藏的规律,可以学习
    3. 有关于潜藏的规律资料数据

    (测试题)下面哪种情况最适合使用机器学习?

    1. 预测小女孩下一次哭的时间是奇数还是偶数(No,没有规律)
    2. 判断一个图是否有环(No,可以编程定义明确)
    3. 预测下一个十年地球是否会毁灭(No,没有数据)
    4. 决定是否同意给用户办理信用卡(Yes,有用户历史行为数据且难以编程解决)

    二、机器学习应用(Applications of Machine Learning)

    • 衣(Abu-Mostafa, 2012)
      • 技能:穿衣搭配推荐
      • 数据:衣服销售数字+顾客调差反馈
    • 食(Sadilek et al., 2013)
      • 技能:正确告诉餐厅食物中毒的可能性
      • 数据:用户的Twitter数据(评论的文字+餐厅地点)
    • 住(Tsanas and Xifara, 2012)
      • 技能:预测建房所需能源消耗
      • 数据:历史修建房屋的能源消耗数据
    • 行(Stalkamp et al., 2012)
      • 技能:识别交通信号
      • 数据:交通信号图片和含义数据

    除此之外,还有教育(流利说)、金融(信用卡办理)、医疗(药效预测)、法律(摘要)、娱乐(推荐系统)等各种行业。

    二、机器学习组成部分(Components of Learning)

    image

    以信用卡办理为例,任务是给要用信用卡花钱的用户办理。机器学习组件如下:

    • 输入X(银行用户数据特征,如年龄、性别、工资等)
    • 输出Y(办卡后刷还信用卡的好坏)
    • 训练数据D={(x_1, y_1),(x_2, y_2),...,(x_n, y_n)}
    • 目标函数f:x \rightarrow y(理想的函数,表示实际训练数据的分布规律,但是未知)
    • 假设集合H(hypothesis set),我们需要通过算法学到集合中最佳的假设,其对应的函数为g:x \rightarrow y我们希望最终的模型表达式g满足g\approx f

    机器学习整个流程可以表示如下:


    image

    比如以上面的信用卡办理为例,假设其中的hypothesis set H为:

    • h1: 年薪 > 80万
    • h2: 欠款 > 10 万
    • h3: 工龄 < 2年

    我们的H中的假设有好有坏,我们通过演算法A去选择最好的一个作为g。

    因此我们在机器学习中常说的模型是 演算法A+假设集合H

    我们再以预测用户给歌曲打分(0-100分)为例,我们有:

    训练数据D = 100万条((userid, songid), rating)对
    输入X = 所有可能的(userid, songid)对
    输出Y = [0, 100]
    假设集合H = 将用户因素和歌曲因子相乘,并由所有可能的因素组合索引

    我们以训练数据D为入口,通过演算法A选出H中最好的假设得到g。


    image

    四、机器学习和其他领域(Machine Learning and Other Fields)

    • 机器学习与统计
    image
    • 机器学习与数据挖掘
    image
    • 机器学习与人工智能
    image

    总结来说:

    • 统计可以实现机器学习
    • 机器学习和数据挖掘相互缠绕,难以区分
    • 机器学习是实现人工智能的一种方式

    五、总结

    image

    本节主要概括性的讲了机器学习的方方面面,高层笼统,概念清晰,没有太多技术性的东西。

    相关文章

      网友评论

          本文标题:林轩田机器学习基石(1):The Learning Proble

          本文链接:https://www.haomeiwen.com/subject/tiurrqtx.html