美文网首页
机器学习中特征选择

机器学习中特征选择

作者: videoisfun | 来源:发表于2021-12-28 23:04 被阅读0次

机器学习需要从数据里面学习,可不是所有数据都可以进行学习。一般在做训练之前,首先需要把raw data转换成特征向量(Feature vector),如下图所示:


image.png

很多ML Model都需要特征向量是实数的vector,方便训练时候做数学运算。根据raw data的类型有不同的转换方法:

  1. 数值型:直接转换成real number,什么时候做cap/transform?
  2. 类型值:可以定义一个词典,里面包含所有可能的类型,把某个类型映射到一个具体的数,如果出现没有定义的类型,则把这种类型算作其他。譬如说上图中street_name这个feature,就可以建一个字典,包含可能的街道名字,如
{'Charleston Road', 'North Shoreline Boulevard', 'Shorebird Way', 'Rengstorff Avenue'}

这样,就可以把街道名映射到number,例如

  1. 映射 'Charleston Road' 到 0
  2. 映射 'North Shoreline Boulevard' 到1
  3. 映射'Shorebird Way' 到2
  4. 映射'Rengstorff Avenue' 到3
  5. 映射所有其他的到4.

通过直接使用index的方式,虽然可以用字符串的feature做数学运算了,但实际做的时候会有问题;

  1. 因为模型对stream_name这个feature学出来一个weight,如果模型希望能够根据stream_name来预测房屋价格,那么使用这个feature得到的结果,就是房屋价格和街道名字是线性相关的,而且这个价格是和街道名线性相关的。
  2. streat_name不能采用多个值;
    为了解决这两个限制,需要创建一个二进制vector来表示这个feature,这种表示方式叫做one-hot encoding。下图展示了one-hot encoding的编码方式:
image.png

这种方式对于每个街道名字创建了一个Boolean变量,用来表示这个房屋在哪个街道上。如果一个房子在Shorebird Way, 那么模型就可以只用Shorebird Way对应的权重来去做计算。

当然如果你的数据里面有成千上万个街道名字,那么用这种方式就不太合适了。这种情况下通常会用sparse representation,也就是只把non-zero的值存储起来,然后依旧是一个独立的model weight会被应用到每个街道名字上。

image.png

相关文章

  • 特征选择与特征学习算法研究--笔记1

    特征选择与特征学习算法研究 2.1特征选择 特征选择过程特征选择是对数据进行预处理的机器学习算法,通过从数据中筛选...

  • 浅读机器学习有感(二)

    六、机器学习中的特征选择: 6.1什么是特征选择? 特征选择就是单纯地从提取到的所有特征中选择部分特征作为训...

  • 机器学习中特征选择

    机器学习需要从数据里面学习,可不是所有数据都可以进行学习。一般在做训练之前,首先需要把raw data转换成特征向...

  • 面试题目总结-机器学习算法-基础

    1.机器学习中特征的理解 def:特征选择和降维 特征选择:原有特征选择出子集,不改变原来的特征空间 降维:将原有...

  • 【特征工程】特征选择与特征学习

    特征选择与特征学习 在机器学习的具体实践任务中,选择一组具有代表性的特征用于构建模型是非常重要的问题。特征选择通常...

  • 机器学习中的特征选择

    特征选择主要有两个功能:减少特征数量、降维,使模型泛化能力更强,减少过拟合增强对特征和特征值之间的理解 1. 去掉...

  • 粒子群优化算法(PSO)之基于离散化的特征选择(FS)(一)

    前言:在机器学习中,离散化(Discretization)和特征选择(Feature Selection,FS)是...

  • 一文归纳Python特征选择(全)

    1 特征选择的目的 机器学习中特征选择是一个重要步骤,以筛选出显著特征、摒弃非显著特征。这样做的作用是: 减少特...

  • 6.10  特征处理

    整理一下建模前的步骤:特征提取,特征转换,特征选择对机器学习(传统机器学习和深度学习)建模都是非常重要的环节。 补...

  • 机器学习特征工程--特征选择

    前言 特征工程是数据分析中最耗时间和精力的一部分工作,它不像算法和模型那样是确定的步骤,更多是工程上的经验和权衡。...

网友评论

      本文标题:机器学习中特征选择

      本文链接:https://www.haomeiwen.com/subject/unmbqrtx.html