1.1:机器学习方法的类别
-
有监督学习
有监督学习是机器学习中最常见的类型。它本质上是一种函数逼近。我们试图将数据点映射为一个模糊函数。通过优化,我们希望依据训练数据拟合出一个与未来数据取得最佳逼近效果的函数。该类方法之所以成为“有监督方法”,是因为它们需要接收一个训练集或学习集 -
无监督学习
无监督学习只分析数据,而不向某个Y映射。该类方法之所以称为“无监督方法”,是因为它们并不知道输出结果为何物,而是需要自己提供。 -
强化学习
强化学习与有监督学习相似,但会对每一步生成一个“回报”。例如,好比一只在迷宫中寻找奶酪的老鼠,它希望找到奶酪,但绝大多数时候它不会得到任何奖励,除非最终找到奶酪
1.2:机器学习算法矩阵
-
KNN
有监督学习-基于实例的-一般说来,KNN适合度量基于距离的逼近;易受维数灾难的影响-适于求解基于距离的问题 -
朴素贝叶斯
有监督学习-概率的-适用于那些输入相互独立的问题-适用于那些各类概率值为正的问题 -
SVM
有监督学习-决策面-适用于两类分类中具有明确界限的问题-适用于两类分类问题 -
神经网络
有监督学习-非线性函数逼近-几乎没有约束偏置-适合二元输入问题 -
(核)岭回归
有监督学习-回归-对所能解决的问题具有很低的约束偏置-适合用于连续变量 -
隐马尔科夫模型
有监督/无监督-无后效性-适用于那些符合马尔科夫假设的系统信息-适用于时间序列数据和无记忆的信息 -
聚类
无监督-聚类-无限制-适用于给定某种形式的距离(欧氏距离、马氏距离或其他距离)时,数据本身具有分组形式 -
过滤
无监督-特征变换-无限制-适用于数据中有大量变量需要过滤的场合
1.3:利用上表可明确如何解决一个给定问题
例如,对于确定某人居住的社区这样的问题,KNN便是一个很好的选择,而朴素贝叶斯分类模型则丝毫派不上用场。
但朴素贝叶斯分类模型可以确定情绪或其他类型的概率。
对于寻求两类数据划分边界的问题,支持向量机算法则非常适合,而且不易受维数灾难的影响。因此,对于拥有大量特征的文本问题,支持向量机通常都是很好的选择。
神经网络可以求解从分类到自动驾驶这样范围很广的问题。
核岭回归则是向线性回归模型中添加了一种简单的技巧,并且能够找到曲线的均值。
隐马尔科夫模型能够追踪乐谱,标注词性,并适用于其它类似于系统的应用。
聚类算法适合于那些不含明确输出的数据分组问题。这类算法对数据分析非常有帮助,也可用于构建数据库或高效地保存数据。
过滤方法非常适用于克服维数灾难 。为将所提取到的像素转换为特征,大量使用了该方法。
1.4 更关键的思想
学习算法仅仅是一个开始。最重要的是,我们应当认识到,选择什么方法并不是最关键的,要尝试解决的问题才是最重要的。
这正是我们使用交叉验证、度量精度、查全率和准确率的原因。对每一个步骤进行检查和测试,保证了我们至少在接近更优的答案。
- 推荐书籍
- The Art and Science of Algorithms that Make Sense of Data (2012)
-
Information Theory, Inference and Learning Algorithms (2003)
视频地址 下载地址 豆瓣9.2分 - Machine Learning (1997)
- Artificial Intelligence: A Modern Approach (2009)
- Programming Collective Intelligence Building Smart Web 2.0 Applications (2007) 即 集体智慧编程,豆瓣9.0分
- Reinforcement Learning: An Introduction (1998)
- Geoffrey E. Hinton 的讲义
- Andrew Ng 的讲义
网友评论