美文网首页
《西瓜书》小记(一) 绪论

《西瓜书》小记(一) 绪论

作者: mulanfly | 来源:发表于2017-09-28 11:38 被阅读0次

简介

此章节以西瓜为主题介绍了一下机器学习的基本概念,如数据集样本空间特征向量等等,顺带介绍了一些机器学习的发展过程。

概念

假设空间(hypothesis space):所有假设组成的空间,即对样本所有特征的所有假设构成的空间。如:一个苹果有两个特征,①大小,②甜度。其中大小分为两类,甜度分为不甜两类,那么苹果的可能的种数为 2 x 2 = 4 种。但是,我们还需要考虑到根本不存在大小这个特征,或者根本不存在甜度这个特征,以及连苹果这个东西都不存在,所以所有可能的假设有 (2 + 1) x (2 + 1) + 1 = 10 种,这10种假设组成的空间就是关于该苹果问题的假设空间

版本空间(version space):在假设空间中与训练集一致的假设集合,我们称之为版本空间。也就是说,如果版本空间中存在某个假设,那么一定有相对应的样本符合这个假设。

归纳偏好(inductive bias):机器学习算法再学习过程中对某种类型假设的偏好,称为归纳偏好。如下图,这种偏好可以体现为想要算法更加追求对样本数据的接近度——黑线,还是想要更加追求对数据分布的预测度——红线

图1 偏好平滑与偏好崎岖的曲线对比

奥卡姆剃刀(Occam's razor):一种最基本的归纳偏好,即 “若有多个假设与观察一致,则选最简单那个”。

没有免费的午餐定理(No Free Lunch Theorem, 简称 NFL 定理):算法在训练集之外的所有样本上的误差为:

对于所有可能的 f 按均匀分布求和,则有:

最终得出结论:总误差与学习算法无关!也就是说,无论学习算法好坏与否,它们的期望性能都相同!但是我们需要知道上述定理论述过程中假设了 f 的均匀分布,而实际情况可能并非如此。实际运用中,某些假设可能是不符合实际甚至根本不存在的。所以,NFL 定理并非是要让我们认为机器学习算法没有用处,而是要让我们认识到讨论算法结合实际才有意义,脱离实际谈论什么算法更好毫无意义可言。

发展历程

连接主义学习(二十世纪五十年代初) :

  • 感知机(Perceptron)
  • Adaline

符号主义学习(六七十年代):

  • 结构学习系统
  • 基于逻辑的归纳学习系统
  • 概念学习系统
  • 以决策理论为基础的学习技术以及强化学习技术

从样例中学习(二十世纪八十年代):

  • 决策树(decision tree)
  • 基于逻辑的学习(代表作:Inductive Logic Programming,简称 ILP)
  • 神经网络

统计学习(二十世纪九十年代中期):

  • 支持向量机(Support Vector Machine,简称 SVM)
  • 核方法(kernel methods)

连接主义学习复兴——深度学习(二十一世纪初):

  • 卷积神经网络(Convolutional Neural Network,简称 CNN)
  • 循环神经网络(Recurrent Neural Network,简称 RNN)
  • 递归神经网络(Long Short-Term Memory,简称 LSTM)

应用现状

研究领域

  • 图像识别(Image Recognition)
  • 语音识别(Speech Recognition)
  • 自然语言处理(Natural Language Processing)
  • 数据挖掘(Data Mining)

应用领域

  • 天气预报、能源勘探、环境监测
  • 分析销售数据、客户信息
  • 搜索引擎(文字搜索、图片搜索)
  • 自动驾驶
  • 分析社交网络数据
  • 商业决策支持
  • 人工智能

阅读材料

重要国际学术会议

  • 国际机器学习会议(ICML)
  • 国际神经信息处理系统会议(NIPS)
  • 国际学习理论会议(COLT)

重要区域性会议

  • 欧洲机器学习会议(ECML)
  • 亚洲机器学习会议(ACML)

重要国际学术期刊

  • Journal of Machine Learning Research
  • Machine Learning

人工智能领域

  • 重要会议:IJCAI、AAAI
  • 重要期刊:Artificial Intelligence、Journal of Artificial Intelligence Research

数据挖掘领域

  • 重要会议:KDD、ICDM
  • 重要期刊:ACM Transactions on Knowledge Discovery from Data、Data Mining and Knowledge Discovery

计算机视觉与模式识别

  • 重要会议:CVPR
  • 重要期刊:IEEE Transactions on Pattern Analysis and Machine Intelligence

神经网络领域

  • 重要期刊:Neural Computation、IEEE Transactions on Neural Networks and Learning Systems

统计学领域

  • 重要期刊:Annals of Statistics

国内机器学习领域

  • 重要会议:中国机器学习大会(CCML)、“机器学习及其应用”研讨会(MLA)

小结

第一章绪论讲述的东西并不多,只是初步介绍了一下机器学习的基本知识以及机器学习领域的重要会议和重要期刊。我觉得重要会议和重要期刊应当着重记一下,以后必然要用到。就算不查文献、不查资料,多读读专家们的论文、了解下现今技术的发展也是应该的吧。即使读到了一篇水文,那也是一篇顶会的水文,也不必说浪费了时间。

相关文章

  • 《西瓜书》小记(一) 绪论

    简介 此章节以西瓜为主题介绍了一下机器学习的基本概念,如数据集、样本空间、特征向量等等,顺带介绍了一些机器学习的发...

  • 西瓜书--绪论

    机器学习致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。在计算机系统中,”经验”通常以“数据”的形式存...

  • 西瓜书 菜鸟学习笔记 绪论

    引言 机器学习研究的主要内容是关于在计算机上从数据中产生“模型”(model)的算法,即学习算法(learning...

  • 机器学习笔记

    以西瓜书为主线,以其他书籍作为参考进行补充,例如《统计学习方法》,《PRML》等 第一章 绪论 1.2 基本术语 ...

  • 机器学习 西瓜书 Day01 绪论

    今天开始养成一个好的习惯培养意志力读书 《机器学习》 周志华著每天至少15页 Day01 p1-p22 第一章 绪...

  • 西瓜书学习笔记-绪论

    绪论 人类通过经验做出一些判断,在计算机系统中,经验一般以数据的形式存在。因此,机器学习所研究的主要内容是从数据中...

  • 《西瓜书》小记(三) 线性模型

    简介 我们将在此章节用 python 自己实现一遍以下几种模型: 线性回归(linear regression) ...

  • 【西瓜书读书笔记】第一章 绪论

    一、机器学习研究内容 机器学习致力于研究如何通过计算的手段,利用经验来改善自身的性能。由于经验通常以数据的形式存在...

  • 西瓜书读书笔记--第一章 绪论

    1.1 引言 略 1.2 基本术语 1.2.1 数据集相关的基本概念 假定我们收集了一批关于西瓜的数据,例如(色泽...

  • 如何正确的挑选西瓜

    《机器学习》周志华第一章 绪论盛夏来临,空调西瓜成为幸福的代名词。于是,如何正确的挑选西瓜变成一个影响幸福值的重要...

网友评论

      本文标题:《西瓜书》小记(一) 绪论

      本文链接:https://www.haomeiwen.com/subject/vkfjextx.html