什么是降维灾难？如何对数据降维？

作者: 时光无声_f622 | 来源:发表于2019-12-10 21:34 被阅读0次

什么是降维灾难？如何对数据降维？
主成分分析|机器学习推导系列（五）
特征选择
基于sklearn的主成分分析
单细胞笔记5-tSNE和UMAP
机器学习之降维
降维
PCA
《机器学习》第11章特征选择
数据降维——PCA、SVD

姓名：贺文琪

学号：19021210758

【嵌牛导读】近年来，基于图的降维方法由于其在图像分类和数据聚类等许多实际任务中的广泛应用而受到广泛关注，那么我们为什么要对图像降维。

【嵌牛鼻子】数据降维

【嵌牛提问】什么是数据降维？我们为什么要降维？

【嵌牛正文】

近年来，科技的进步和计算机技术的发展，人们获取数据的能力也有了很大的提高，在获得大量数据的同时，也面临着数据处理的巨大挑战。在各领域处理实际问题时，通常会获得海量高维数据，数据维数的增加必将会引起“维数灾难”。所谓“维数灾难”是1961年，由Bellman提出的，指的是估计变量函数所需的样本数与维数构成了指数增长的关系，会带来巨大的计算代价以及存储代价。对于数据而言，并不是维数越高越好，通常这些数据中会含有大量的冗余以及噪声。对一个对象来说，一个向量表示着该对象的不同属性，如在人脸识别应用中，图像的所有像素点都会作为该图像的属性，在信息时代的今天，图像的分辨率一直在增加，这就会导致数据维数成指数增长，直接处理大量高分辨率的图像会对计算机的存储能力以及计算处理能力提出更高的要求，而图像中含有的大量冗余信息也会降低处理算法的性能；在生物医学领域，每个谱数据用成千上万的基因来表达，基因表达的典型特点是数据维数高，样本少，而生物医学领域的另外一个重要研究方向是医学图像的处理，两者同样面临着维数灾难的问题；文本识别、手写体识别一般应用在信息检索中，对于一个文档而言，也包含着成千上万的特征词向量，则其所对应的维数会更高，甚至达到几十万的维度。因此在实际中，经常会遇到这些高维的数据。那么在高维数据中，寻找到数据中的有效信息成为需要急切解决的问题。

为了解决维数灾难的问题，消除高维数据的冗余，寻找数据中的本质关系，有效的处理高维数据，数据降维技术应运而生。该技术是将原始数据映射到低维子空间中，在子空间中保持数据的几何结构和数据间的重要关系（保证有效的信息可以最大化），从而获得一个将数据从高维到低维的一个表示过程，然后在低维子空间中再对数据进行处理，可以有效的提高实验的精确度，大大的降低计算代价，提高效率。目前，数据降维可以应用在许多领域中，如模式识别、多媒体分类、数据可视化、基因序列检测等。通过降维技术，能够有效的解决维数灾难问题，从高维数据中提取关键特征，消去冗余特征和噪声，有利于后续处理。