K值选择原理:
1 目前尚没有明确的方法选择最佳,所以需要多尝试
2 K值低,会受离群值的影响
3 K值高,会导致一些小样本量的样本没有话语权
2 如果K=3,就随机选择3个母点
3 计算每个点到这三个母点的距离d
4 找到距离d的最小值,这个点就属于哪一类
5 重复很多很多次,直至不再变化了,此时数据就被分成K=3类
K nearest原理:
1. 将数据映射成PCA的格式
2. 随机找一个母点
image.png3. 计算每一个点到这个母点的距离,如图,这个母点为绿色类
4. 举例:
- K=11时,将图中所有点到黑色母点的距离排序,取TOP11个点
- 11个点中,7个为红色,3个为橙色,1个为绿色。则这个点属于红色类
网友评论