L1距离和L2距离
L1距离(也称曼哈顿距离), 只对单个像素作差然后取绝对值, 最后把整个图片所有像素差值的绝对值求和:
L2距离(也称欧氏距离), 平方和的平方根, 改变坐标轴会影响L1距离, 但对L2距离无影响:
当向量中的各个元素具有实际的意义, 即数据具有强特征时, L1的表现要比L2更好.
KNN(K Nearest Neighbor):
训练时间复杂度O(1), 预测时间复杂度O(N)
因为KNN训练时只是存储数据, 无论数据集多大, 复制指针的时间都是恒定的. 但在预测时需要将测试集和全部训练集逐个比较, 与实际需求不符.
当K较大时, 决策边界更平滑, 决策区域更集中. 图中白色区域代表没有获得KNN投票
分割数据集
第一种K=1会过拟合, 第二种不能保证在其他测试集上表现良好
应该用第三种, 多组超参训练数据, 将在验证集(validation set)上表现最好的一组参数用于测试集(test set)
交叉验证:
将数据分组, 轮流作为验证集, 在小数据上时比较常用
网友评论