1.KNN(K-NearestNeighbor)介绍
(1)K最近邻算法,本质上基于一种数据统计的方法。
(2)KNN是一种基于记忆、基于实例的学习,属于“慵懒”学习,没有明显的前期训练过程,而是程序开始运行时,把数据集加载到内存后,不需要进行训练,就可以开始分类。每次来一个未知样本点,就在附近找K个最近的点进行投票
2.KNN优缺点
(1)优点:
(2)缺点:
3.其他相关问题
(1)大规模稀疏的数据分析中,KNN的k个最近邻该如何选择?
答:
(2)KNN与LWR很像
准备的数据集都事先打好了标签,一类蓝色,一类红色。现在来了一个绿色待分类数据。
若K=3,则选取离它最近三个数据,显然是两个红色,一个蓝色,这3个点进行投票,于是绿色待分类点被归为红色类
若K=5,选最近5个,这时蓝色三个,红色两个,故而被分为蓝色类
KNN下图无法用任意一条直线来模拟这个数据集,但是每个局部范围内的数据点却是可以认为在一条直线上,每次来一个未知样本“x”,我们在X轴上以该数据样本为中心,左右各找几个点,将这几个点进行线性回归,算出一条局部直线,然后将未知样本x代入这条直线,就算出了对应的y,完成了一次线性回归。
也就是,每次来一个数据点,都要训练一条局部直线,也即训练一次,并且就使用一次。
LWR因此,KNN与LWR(locally weighted regression “局部加权回归”)两者很像,都是“量身定制”为未知数据,在局部进行训练。
网友评论