统计学习方法读书笔记——第三章 k近邻法

统计学习方法读书笔记——第三章 k近邻法

作者: Jarkata | 来源:发表于2021-02-07 02:04 被阅读0次

统计学习方法第二章：感知机(perceptron)算法及pyth
统计学习方法第三章：k近邻法(k-NN),kd树及python实
统计学习方法第五章：决策树(decision tree),CAR
统计学习方法第四章：朴素贝叶斯法(naive Bayes)，贝叶
统计学习方法第五章：决策树(decision tree),ID3
k 近邻法
k近邻法的kd Tree搜索
统计学习方法 | k近邻法
《统计学习方法》-k近邻法
统计学习方法笔记(第三章个人笔记)

k近邻法(k-nearest neighour, k-NN)是一种基本分类与回归方法，输入为实例的特征向量，输出为实例的类别，可以取多类。
假设给定一个训练数据集，其中的实例类别已定。分类时，对新的实例，根据其k个最近邻的训练实例的类别，通过多数表决等方式进行预测。因此k近邻法不具有显式的学习过程。
事实上利用训练数据集对特征向量空间进行划分，并作为其分类的“模型”。
k值的选择、距离度量及分类决策规则是k近邻法的三个基本要素。
k近邻法的一个实现方法——kd树

3.1 k近邻算法

给定一个训练数据集，对新的输入实例，在训练数据集中找到与该实例最近的k个实例，这k个实例多数属于某个类，就把输入实例分为这个类。

3.2 k近邻模型

k近邻算法使用的模型实际上对应于对特征空间的划分。模型由三个基本要素——距离度量、k值选择和分类决策规则决定。

3.2.2 距离度量

特征空间中两个实例点的距离是两个实例点相似程度的反映。可以使用欧氏距离、 $L_p$ 距离或Minkowski距离等。

Lp距离间的关系

3.2.3 k值的选择

k值的选择会对k近邻法的结果产生重大影响。

k值较小=>邻域较小=>近似误差减小，只有与输入实例较近的训练实例对预测结果起作用=>估计误差增大，对近邻的实例点非常敏感（若近邻点恰好为噪声，预测就会出错)=>换句话说，k值减小意味着整体模型变复杂，容易发生过拟合。
k值较大=>邻域较大=>估计误差减小，近似误差增大，较远距离实例点对预测起作用，可能导致预测错误=>k值增大意味着整体模型变简单
如果k=N，意味着无论输入实例是什么，都将取训练实例中最多的类，模型过于简单，完全忽略训练实例中大量有用信息。
实际应用中，k值一般取一个比较小的数值，通常采用交叉验证法来选取最优k值。

3.2.4 分类决策规则

k近邻法中的分类决策规则往往是多数表决。多数表决规则等价于经验风险最小化。

3.3 k近邻法的实现：kd树

主要问题：如何对训练数据进行快速k近邻搜索。
最简单方法：线性扫描，耗时大。
可以考虑使用特殊结构存储训练数据，以减少计算距离的次数。下面介绍其中的kd树方法。

3.3.1 构造kd树

kd树是一种对k维空间中的实例点进行存储的二叉树结构，方便快速检索，表示对k维空间的一个划分(partition)，注意这里的k指的是k维，和k近邻法的k意义不同。
构造kd树相当于不断地用垂直于坐标轴的超平面将k维空间切分，构成一系列的k维超矩形区域。
构造kd树的方法：

通常依次选择坐标轴对空间切分，选择中位数作为切分点，这样得到的kd树是平衡的。注意，平衡的kd树搜索时的效率未必是最优的。
构造平衡kd树的算法：

一个kd树的例子（二维空间）：

3.3.2 搜索kd树

利用kd树可以省区对大部分数据点的搜索。
思想：首先找到包含目标点的叶节点（二分查找），然后从该叶节点出发，一次回退到父节点，不断查找与目标点最近邻的节点。
kd树的最近邻搜索算法：

如果实例点是随机分布的，kd搜索的平均计算复杂的是

O(logN)

，

N

为训练实例数。
适用于训练实例维数远大于空间维数时的k近邻搜索。
当空间维数接近训练维数时，它的效率会迅速下降，几乎接近线性扫描。
kd搜索举例：

相关文章

统计学习方法第二章：感知机(perceptron)算法及pyth
统计学习方法第二章：感知机(perceptron)算法及python实现统计学习方法第三章：k近邻法(k-NN),...
统计学习方法第三章：k近邻法(k-NN),kd树及python实
统计学习方法第二章：感知机(perceptron)算法及python实现统计学习方法第三章：k近邻法(k-NN),...
统计学习方法第五章：决策树(decision tree),CAR
统计学习方法第二章：感知机(perceptron)算法及python实现统计学习方法第三章：k近邻法(k-NN),...
统计学习方法第四章：朴素贝叶斯法(naive Bayes)，贝叶
统计学习方法第二章：感知机(perceptron)算法及python实现统计学习方法第三章：k近邻法(k-NN),...
统计学习方法第五章：决策树(decision tree),ID3
统计学习方法第二章：感知机(perceptron)算法及python实现统计学习方法第三章：k近邻法(k-NN),...
k 近邻法
k 近邻法 k 近邻算法 k 近邻模型 k 近邻法的实现：kd 树搜索 kd 树 k 近邻模型实现 k 近邻模型...
k近邻法的kd Tree搜索
最近在读李航老师的《统计学习方法》，读到第三章的k近邻算法时，在N>>k时遍历搜索比较费时，为了更高效的搜索可以采...
统计学习方法 | k近邻法
01 分类需求 K近邻法（KNN）是一种基本的分类与回归方法分类这种需求，渗透到我们生活的方方面面：根据学生德智...
《统计学习方法》-k近邻法
date: 2018-1-19k近邻算法不需要显示学习判别模型，属于懒惰学习的一种，这样要素变成了：k值的选取、距...
统计学习方法笔记(第三章个人笔记)
统计学习方法笔记(第三章个人笔记) 标签：机器学习深度学习 K近邻算法 1. 描述：给定一个训练数据集，对新的输...

网友评论

本文标题：统计学习方法读书笔记——第三章 k近邻法

本文链接：https://www.haomeiwen.com/subject/nlqotltx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|统计学习方法读书笔记——第三章 k近邻法|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！