KNN:采用测量不同特征值间的距离或相似度的方法进行分类。
算法原理:如果一个样本在特征空间的K个最相似(最邻近)的样本中的大多数属于某类别,则此样本属于该类别。
算法决策过程:
- 将新数据的每个特征与样本集中数据对应的特征比较
- 提取样本集中特征最相似(最邻近)的K个数据的分类标签
- 选择K个最相似数据中出现次数最多的分类标签,作为新数据的分类标签
K值大小的影响:
较小的K值:用较少训练实例预测,对近邻数据非常敏感,模型的泛化能力较差,容易过拟合。
较大的K值:用较多的训练实例进行预测,这意味着距离较远的实例也会起作用,使近似误差增大,容易发生欠拟合。
优点:简单、易理解和实现;无需估计参数,无需训练;精度高,对异常值不敏感;适用于多分类问题。
缺点:当样本不平衡时,效果较差;计算量大,对内存的要求也较大;可理解性差,无法给出向决策树那样的规则。
网友评论