美文网首页面向机器学习的特征工程 | ApacheCN程序员
面向机器学习的特征工程 七、非线性特征提取和模型堆叠

面向机器学习的特征工程 七、非线性特征提取和模型堆叠

作者: 布客飞龙 | 来源:发表于2018-05-22 15:52 被阅读236次

七、非线性特征提取和模型堆叠

来源:ApacheCN《面向机器学习的特征工程》翻译项目

译者:friedhelm739

校对:(虚位以待)

当在数据一个线性子空间像扁平饼时 PCA 是非常有用的。但是如果数据形成更复杂的形状呢?一个平面(线性子空间)可以推广到一个 流形 (非线性子空间),它可以被认为是一个被各种拉伸和滚动的表面。

如果线性子空间是平的纸张,那么卷起的纸张就是非线性流形的例子。你也可以叫它瑞士卷。(见图 7-1),一旦滚动,二维平面就会变为三维的。然而,它本质上仍是一个二维物体。换句话说,它具有低的内在维度,这是我们在“直觉”中已经接触到的一个概念。如果我们能以某种方式展开瑞士卷,我们就可以恢复到二维平面。这是非线性降维的目标,它假定流形比它所占据的全维更简单,并试图展开它。

图7-1

关键是,即使当大流形看起来复杂,每个点周围的局部邻域通常可以很好地近似于一片平坦的表面。换句话说,他们学习使用局部结构对全局结构进行编码。非线性降维也被称为非线性嵌入,或流形学习。非线性嵌入可有效地将高维数据压缩成低维数据。它们通常用于 2-D 或 3-D 的可视化。

然而,特征工程的目的并不是要使特征维数尽可能低,而是要达到任务的正确特征。在这一章中,正确的特征是代表数据空间特征的特征。

聚类算法通常不是局部结构化学习的技术。但事实上也可以用他们这么做。彼此接近的点(由数据科学家使用某些度量可以定义的“接近度”)属于同一个簇。给定聚类,数据点可以由其聚类成员向量来表示。如果簇的数量小于原始的特征数,则新的表示将比原始的具有更小的维度;原始数据被压缩成较低的维度。

与非线性嵌入技术相比,聚类可以产生更多的特征。但是如果最终目标是特征工程而不是可视化,那这不是问题。

我们将提出一个使用 k 均值聚类算法来进行结构化学习的思想。它简单易懂,易于实践。与非线性流体降维相反,k 均值执行非线性流形特征提取更容易解释。如果正确使用它,它可以是特征工程的一个强大的工具。

阅读全文

相关文章

  • 面向机器学习的特征工程 七、非线性特征提取和模型堆叠

    七、非线性特征提取和模型堆叠 来源:ApacheCN《面向机器学习的特征工程》翻译项目 译者:friedhelm7...

  • 特征工程

    数据和特征决定了机器学习的上限,模型和算法只是逼近这个上限。特征工程对原始数据进行特征提取、特征预处理、特征选择等...

  • 无标题文章

    python 机器学习 预测分析核心算法 特征提取和特征工程 确定哪些特征可用于预测也需要尝试。这个过程就是特征提...

  • 深度学习方法VS传统机器学习

    传统机器学习算法:输入——人工特征提取——权重学习——预测结果 深度学习算法:输入——基础特征提取——多层复杂特征...

  • 脏数据的影响力

    脏数据的影响力 一般情况下,我们都会将机器学习的模型训练分成5大步骤(预处理,特征提取,特征转换,模型训练和评估,...

  • 面向机器学习的特征工程 一、引言

    来源:ApacheCN《面向机器学习的特征工程》翻译项目 译者:@ZhipengYe 校对:(虚位以待) 机器学习...

  • 机器学习中,有哪些特征选择的工程方法

    转:知乎 特征选择是特征工程中的重要问题(另一个重要的问题是特征提取),坊间常说:数据和特征决定了机器学习的...

  • 特征工程-1-数据预处理

    0、前言 数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。 由此可见,特征工程在机器学习中占有相...

  • 机器学习特征工程入门与实践笔记

    本文介绍机器学习中非常重要的特征工程部分,数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。 具体...

  • 机器学习第三课_数据预处理2

    数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。由此可见,特征工程在机器学习中占有相当重要的地位...

网友评论

本文标题:面向机器学习的特征工程 七、非线性特征提取和模型堆叠

本文链接:https://www.haomeiwen.com/subject/xftkjftx.html