美文网首页
KNN与维度灾难

KNN与维度灾难

作者: 小幸运Q | 来源:发表于2018-08-04 00:13 被阅读176次

现象:

分类器的准确度会随通道(特征)数增多而下降:


image.png

维数灾难与过拟合:

  1. 假设猫和狗图片的数量是有限的(实际上也确实如此,样本数量总是有限的)

  2. 使用单一特征准确度低:


    image.png
  3. 使用二维特征:


    image.png
  4. 从1维到3维,给我们的感觉是:维数越高,分类性能越优。

  • 然而,当样本数稳定在十个的时候,在一维特征空间下,我们假设一个维度的宽度为5个单位,这样样本密度为10/5=2;在2维特征空间下,10个样本所分布的空间大小5*5=25,这样样本密度为10/25=0.4;在3维特征空间下,10个样本分布的空间大小为5*5*5=125,样本密度就为10/125=0.08
  1. 假设样本是均匀分布:
  • 如果我们的训练数据覆盖了取值范围的20%(0到0.2),那么所使用的训练数据就占总样本量的20%。上升到二维情况下,覆盖二维特征空间20%的面积,则需要在每个维度上取得45%的取值范围。在三维情况下,要覆盖特征空间20%的体积,则需要在每个维度上取得58%的取值范围...在维度接近一定程度时,要取得同样的训练样本数量,则几乎要在每个维度上取得接近100%的取值范围,或者增加总样本数量,但样本数量也总是有限的。
image.png
过多的特征导致的过拟合现象:训练集上表现良好,但是对新数据缺乏泛化能力,因为数据增长跟不上样本空间的增长,难以表示全部样本空间的特征。

解决方案: 特征选择,只包含所有重要特征的特征子集。

相关文章

  • KNN与维度灾难

    现象: 分类器的准确度会随通道(特征)数增多而下降: 维数灾难与过拟合: 假设猫和狗图片的数量是有限的(实际上也确...

  • 维度灾难

    一、维度灾难及其影响 维度灾难原文:The Curse of Dimensionality in classifi...

  • 维度灾难

    过拟合一般发生在两种情况,高维空间的数据对少参数进行预测,低维空间的数据对多参数进行预测。高维灾难就是第一种情况的...

  • KNN与K-Means算法的区别

    内容参考:Kmeans算法与KNN算法的区别kNN与kMeans聚类算法的区别 KNN-近邻算法-分类算法 思想:...

  • 机器学习day11降维

    降维 用一个低维度的向量表示原来高维度的特征,避免维度灾难。 降维方法 主成分分析 线性判别分析 等距映射 局部线...

  • 降维

    防止模型过拟合的方法中就有降维。 1.为什么要对数据做降维处理? 1.维度过高容易产生维度灾难,维度过高容易使得数...

  • KNN算法在保险业精准营销中的应用

    一、KNN算法概述 KNN是Machine Learning领域一个简单又实用的算法,与之前讨论过的算法主要存在两...

  • 2019-03-06

    ML——降维与度量学习 KNN学习 k近邻(KNN)学习是一种常用的监督学习方法,可用于分类与回归任务中。基本思想...

  • 2019-03-05深度学习——搭建一个简单的KnnClassi

    KNN思想 NN选出与目标图片距离(范数)最近的一张图片KNN选出与目标图片距离(范数)最近的K张图片,并统计K张...

  • Spark --基于DataFrame API实现KNN算法

    Spark -- 基于DataFrame API实现KNN算法 KNN简介 KNN(k-Nearest Neigh...

网友评论

      本文标题:KNN与维度灾难

      本文链接:https://www.haomeiwen.com/subject/dgxpvftx.html