美文网首页
维度灾难

维度灾难

作者: 菜鸟瞎编 | 来源:发表于2019-01-08 10:04 被阅读0次

一、维度灾难及其影响

维度灾难
原文:The Curse of Dimensionality in classification

" In fact, data around the origin (at the center of the hypercube) is much more sparse than data in the corners of the search space. "
不明白为什么中心的数据会比角落的数据稀疏。

--------------------------------------------------------------------------------
以下摘自 当你在应用机器学习时你应该想什么
高维"灾难"
经过上一节你可能会想"既然特征工程这么重要, 那我就把想到的所有的特征组合都作为数据的特征不就好了吗". 这么做的结果会使特征维数增加, 一方面会增加存储和计算开销, 更重要的是, 它会招来机器学习担忧的另一头猛兽: 维数灾难(curse of dimensionality).

由于你能拿到手中的训练数据是有限的, 当维数增加时, 输入空间(input space)的大小随维数指数级增加, 训练数据占整个数据空间的比例将急剧下降, 这将导致模型的泛化变得更困难. 在高维空间中, 样本数据将变得十分稀疏, 许多的相似性度量在高维都会失效. 比如下图中, 最左边的是原图, 右边三张图看上去差别很大, 但和原图都有着相同的欧氏距离.

image
解决维数灾难的一个重要途径是降维(dimension reduction), 即通过一些手段将原始高维空间数据转变为一个低维子空间, 在这个子空间中样本密度大幅提高, 距离计算也更容易. 特征选择(feature selection)和低维投影(如PCA)是用来处理高维数据的两大主流技术.
--------------------------------------------------------------------------------

以下摘自知乎:
作者:周天元
链接:https://www.zhihu.com/question/27836140/answer/406327359
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

反对楼上几乎所有回答,因为他们只说了cod的一个方面,就是近邻。cod是一个很杂的现象,即使不是近邻也会遇到。如果只从近邻去理解cod,那很多东西你就理解不了。cod本身是一个总称,在不同算法下表现不同。例如在knn rbf-svm之类的local kernelmachine 中表现为近邻找不准,或者说,如果要找准近邻,那么所需数据量随维数(更精确点,该数据点所在流形维数)呈指数上升,这方面的资料可以参见bengio 在09年的paper,就叫curse of dimensionality of local kernel machines。如果对树方法比如随机森林,那么cod体现在树split时会split在noise dim上,或者说要想split准,所需数据量随树的层数呈指数上升,这方面的材料可以参见zhu ruoqing在2015年的文章reinforcement learning trees。如果对线性分类器,那么cod体现就多了,比如可以体现在分类边界的不稳定上,具体可以看liu feng的文章。总之cod是一个总称,背后反应的是complexity随维度增加而增加,这方面抽象成高级理论,就叫learning theory,具体可以看vapnik的教材。
--------------------------------------------------------------------------------

Bengio 论文 The Curse of Dimensionality for Local Kernel Machines

理解:在高维空间中,许多基于距离的度量都会失效,比如欧式距离。特征的维度越高,所需的数据越多,否则就容易过拟合。

二、如何解决维度灾难

解决维数灾难的一个重要途径是降维(dimension reduction), 即通过一些手段将原始高维空间数据转变为一个低维子空间, 在这个子空间中样本密度大幅提高, 距离计算也更容易. 特征选择(feature selection)和低维投影(如PCA)是用来处理高维数据的两大主流技术.

相关文章

  • 维度灾难

    一、维度灾难及其影响 维度灾难原文:The Curse of Dimensionality in classifi...

  • 维度灾难

    过拟合一般发生在两种情况,高维空间的数据对少参数进行预测,低维空间的数据对多参数进行预测。高维灾难就是第一种情况的...

  • KNN与维度灾难

    现象: 分类器的准确度会随通道(特征)数增多而下降: 维数灾难与过拟合: 假设猫和狗图片的数量是有限的(实际上也确...

  • 机器学习day11降维

    降维 用一个低维度的向量表示原来高维度的特征,避免维度灾难。 降维方法 主成分分析 线性判别分析 等距映射 局部线...

  • 降维

    防止模型过拟合的方法中就有降维。 1.为什么要对数据做降维处理? 1.维度过高容易产生维度灾难,维度过高容易使得数...

  • 【特征工程】特征选择及mRMR算法解析

    一、 特征选择的几个常见问题 为什么?(1)降低维度,选择重要的特征,避免维度灾难,降低计算成本(2)去除不相关的...

  • 机器学习中的维度灾难

    一、介绍 本篇文章,我们将讨论所谓的“维度灾难”,并解释在设计一个分类器时它为何如此重要。在下面几节中我将对这个概...

  • 解决维度爆炸问题

    一、出自 https://www.jianshu.com/p/867193608bbd 二、如何避免维度灾难 图1...

  • 主成分分析|机器学习推导系列(五)

    一、简介 为什么需要降维 数据的维度过高容易造成维数灾难(Curse of Dimensionality)。. 维...

  • 3.2 降维

    关于降维的讨论主要是来源于“维度灾难”, 这个是数学家理查德-贝尔曼提出的。 当所有参数是已知的时候,维度的增加可...

网友评论

      本文标题:维度灾难

      本文链接:https://www.haomeiwen.com/subject/pbfvrqtx.html