这是 The Elements of Statistical Learning 的读书笔记。
本书主要讲从数据中”学习“,即从一系列特征中预测结果。结果可以是数字(例如股价),也可以是类型(例如垃圾邮件、正常邮件)。我们利用训练数据建立一个预测模型,通过预测模型来预测新的数据输入产生的结果。一个好的模型能够准确地预测结果。
下面是一些常见概念的解释。
supervised and unsupervised learning
监督(supervised)学习的结果有衡量标准,可以引导学习过程。例如:
- 根据关键词进行垃圾邮件分类
- 手写数字识别
- 根据临床指标判断是否患病
无监督(unsupervised)学习的结果没有衡量标准,主要用于描述数据是如何组织的。最典型的例子就是聚类。
regression and classification
回归(regression)的结果是定量的,例如股价。
分类(classification)的结果是定性的,例如是否垃圾邮件。
常用符号
- 输入
- 定量的输出
- 定性的输出, group
所以问题可以描述为:
给定输入 ,预测输出 使其尽量符合真实输出 。对于分类问题,就是预测 使其尽量符合 。
网友评论