美文网首页
《统计学习方法》极简笔记P3:k-NN公式推导

《统计学习方法》极简笔记P3:k-NN公式推导

作者: 统计学家 | 来源:发表于2019-08-18 22:18 被阅读0次

k近邻算法

输入:训练数据集T=\{(x_1,y_1),(x_2,y_2),(x_N,y_N)...,(x_1,y_1)\}
其中,x_i\in\chi \subseteq{R}^n为实例的特征向量,y_i\in{y}=\{c_1,c_2,...,{c_K}\}
i=1,2,...,N;
输出:实例x所属的类y
(1)根据给定距离度量,训练集T中找与x最近邻的k个点,涵盖k个点的x的邻域记N_k(x)
(2)根据多数表决规则决定x的类别y
y=argmax\sum_{x_i\in{N_k(x)}}I(y_i=c_i)
i=1,2,...,N;j=1,2,...,K;

k近邻模型

k近邻模型三要素:距离度量、k值选择、分类决策规则
距离度量L_p距离
L_p(x_i,x_j)=(\sum_{l=1}^{n}|x_i^{(l)}-x_j^{(l)}|^p)^{\frac{1}{p}} p≥1
p=1时,为曼哈顿距离
L_1(x_i,x_j)=(\sum_{l=1}^{n}|x_i^{(l)}-x_j^{(l)}|)
p=2时,为欧氏距离
L_2(x_i,x_j)=(\sum_{l=1}^{n}|x_i^{(l)}-x_j^{(l)}|^2)^{\frac{1}{2}}
p=∞时,为各个坐标距离的最大值
L_∞(x_i,x_j)=max|x_i^{(l)}-x_j^{(l)}|
k值选择:通常采用交叉验证确定最优的k值
分类决策规则:多数表决规则
0-1损失函数下,分类函数
f:R^n→\{c_1,c_2,...,c_K\}
误分类概率:
P(Y≠f(X))=1-P(Y=f(X))
实例x\in\chi,其最近邻的k个训练实例构成集合N_k(x),涵盖N_k(x)的区域类别是c_j,则误分类率:
\frac{1}{k}\sum_{x_i\in{N_k(x)}}I(y_i≠c_i)=1-\frac{1}{k}\sum_{x_i\in{N_k(x)}}I(y_i=c_i)
即使\sum_{x_i\in{N_k(x)}}I(y_i=c_i)最大,也即多数表决规则等价于经验风险最小化。

相关文章

网友评论

      本文标题:《统计学习方法》极简笔记P3:k-NN公式推导

      本文链接:https://www.haomeiwen.com/subject/apelsctx.html