4.1 K近邻算法
- 思想极度简单
- 应用数学知识少
- 可以解释机器学习算法使用过程中的很多细节问题
- 更完整的刻画机器学习的应用流程
K近邻算法的本质其实是认为两个样本如果足够相似,就有更高的概率属于同一个类别。两个样本的相似性就是由在空间上两个样本的距离来决定的。</br>
K近邻算法可以解决监督学习的分类问题,也可以解决回归问题。
import numpy as np
import matplotlib.pyplot as plt
# 模拟样本数据集
raw_data_x = [[3.423749247, 2.334567896],
[3.110073483, 1.745697878],
[1.347946498, 3.368464565],
[3.582294042, 4.679565478],
[2.280364646, 2.866699256],
[7.423454548, 4.696522875],
[5.745051465, 3.533989946],
[9.172456464, 2.051111010],
[7.792783481, 3.424088941],
[7.939820184, 0.791637231]
]
raw_data_y = [0,0,0,0,0,1,1,1,1,1]
X_train = np.array(raw_data_x)
y_train = np.array(raw_data_y)
plt.scatter(X_train[y_train==0, 0], X_train[y_train==0, 1], color='g')
plt.scatter(X_train[y_train==1, 0], X_train[y_train==1, 1], color='r')
plt.show()
image
# 此时来了新的样本
x = np.array([8.093607318, 3.3657315144])
plt.scatter(X_train[y_train==0, 0], X_train[y_train==0, 1], color='g')
plt.scatter(X_train[y_train==1, 0], X_train[y_train==1, 1], color='r')
plt.scatter(x[0], x[1], color='b')
plt.show()
image
由此可以看出新的样本点应该是和红色点是一类。
KNN过程
欧拉距离:
\sqrt{(x^(a)-x^(b))^2 + (y^(a)-y^(b))^2}
\sqrt{(x^(a)-x^(b))^2 + (y^(a)-y^(b))^2 + (z^(a)-z^(b))^2}
\sqrt{(X_1^(a)-X_1^(b))^2 + (X_2^(a)-X_2^(b))^2 + ... + (X_n^(a)-X_n^(b))^2}
\sqrt{\sum_{i=1}^n(X_i^(a)-X_i^(b))^2}
from math import sqrt
distances = []
for x_train in X_train:
d = sqrt(np.sum((x_train -x)**2))
distances.append(d)
distances
# 等价于下面这行代码
distances = [sqrt(np.sum((x_train -x)**2)) for x_train in X_train]
distances
运行结果如下:
image计算完距离之后还不够,因为我们主要想知道距离样本点最近的点。
np.argsort(distances)
运行结果:
array([8, 5, 7, 6, 9, 3, 0, 1, 4, 2]),我们可以看出距离最近的是索引为为8的点,距离第二近的是索引为5的点。
# 设置k值,找出离样本点最近的k个点的y值
k = 6
nearest = np.argsort(distances)
topK_y = [y_train[i] for i in nearest[:k]]
运行结果:[1, 1, 1, 1, 1, 0]我们可以看出,距离样本点最近的6个点中,前5个点的y值均为1.
# 计算不同类的点的个数,统计频数
from collections import Counter
Counter(topK_y)
运行结果:Counter({1: 5, 0: 1})这就表示值为1的元素有5个,值为0的元素只有1个。
# 就像投票一样,我们选出票数最多的一位
votes = Counter(topK_y)
votes.most_common(1)
# 由上面我们得到的是一个列表,但是我们只关心新样本所属的类别,因此只需要取出的类别值即可。
votes.most_common(1)[0][0]
image
由此我们可以看出,新的样本最有可能是1这一类。
网友评论