《机器学习实战》读书笔记2

作者: whybask | 来源:发表于2017-05-08 23:07 被阅读67次

简单的说，k-近邻算法采用测量不同特征值之间的距离的方法，对数据进行分类（贴标签）。

优点：精度高、对异常值不敏感、无数据输入假定。
缺点：计算复杂度高、空间复杂度高。
适用数据范围：数值型和标称型。

如上图，如果有5个点，其中前4个点的“标签”已知，求第5个点的“标签”。

如果把数据表用坐标系图形表示，我们能够直观看出，p5的标签应该是“A”，因为它距离p1、p2更近。

在本例中，向量点只有两个特征值（x轴、y轴坐标），因此用直角坐标系表示很直观。但在更复杂的商业应用中，向量点会有更多的特征值，尽管用图形表达多维空间很复杂，但我们仍然可以通过k-近邻算法确定数据的分类“标签”。

存在一个样本数据集合，也称作“训练样本集” ，并且该集合中的每个数据都有对应的“标签”，即我们知道“训练样本集”中每一数据与所属分类的对应关系。

输入没有标签的新数据，将新数据的每个特征与“训练样本集” 中数据对应的特征进行比较（计算距离），然后算法提取“训练样本集”中特征最相似数据（最近邻）的分类标签。

一般来说只选择“训练样本集”中前k个最相似的数据，这就是“k-近邻算法”中k的出处。最后，选择k个最相似数据中出现次数最多的“标签”，作为新数据的“标签”。

1.收集数据：可以使用任何方法；
2.准备数据：把原始数据组织成用于计算距离的、结构化的格式；
3.分析数据：可以使用任何方法；
4.训练算法：此步骤不适用于k-近邻算法；
5.测试算法：使用测试样本计算错误率；
6.使用算法：输入数据，判定该数据的分类标签。

判断一部电影是爱情片？还是动作片？
婚恋网站的配对推荐；
识别手写字体；
......

同类笔记可点击这里查阅

网友评论

本文标题：《机器学习实战》读书笔记2

本文链接：https://www.haomeiwen.com/subject/lhgvtxtx.html

《机器学习实战》读书笔记2