KNN算法思路:
1、计算目标数据与所有数据样本的距离;
2、选取距离最近的K个数据样本;
3、在K个数据样本中对目标数据进行距离对比 从而得到分类。
理解过程中想到的问题:
1、关键取值为K;分类所选的数据为有限数据,K为关键值,如图显示:选择K值为3后,对目标数据-3组数据,进行距离对比;想到逻辑回归算法,K值相当于缩小整个数据集的训练范围,然后在小范围内对目标数据进行验证。如果在此环节替换为逻辑回归算法,那效果是否一样呢?
![](https://img.haomeiwen.com/i4112082/d61a5224d5c2e99f.png)
2、降维处理;根据西瓜书里描述225-227描述,高维情形下出现的数据样本稀疏、距离计算困难等问题,是所有机器学习方法共同面临的严重错误(维度灾难)。解决维度灾难的一个重要途径就是降维。想到看过的Sigmoid压缩函数在逻辑回归的应用,是否可以在KNN算法之前,对高维的数据样本进行维度降维,然后再进行取K值等操作呢?
——————
果然在https://www.cnblogs.com/gemine/p/11130032.html 有对大数据量的处理
![](https://img.haomeiwen.com/i4112082/16c6b286a89b37ab.png)
网友评论