美文网首页
One hot编码维度过高解决方法

One hot编码维度过高解决方法

作者: 长毛的花卷 | 来源:发表于2019-07-10 10:57 被阅读0次
  1. 根据类别特征的意义进行合并(分桶)
  2. 将类别按频次排序,频次特别低的一部分合并
  3. 特征哈希
  4. PCA降维
  5. 按照该特征对应目标值进行合并
  6. 使用每个分类对应目标变量均值+偏差,或出现频数代替
    -如果测试集中存在训练集没有的样本,需要考虑补缺策略?

不把自身的label算进去(leave-me-out, leave-one-out)统计, 防止信息泄露

  1. 考虑平均数编码(高基数类别特征)
  2. Embedding

将离散型特征进行one-hot编码的作用,是为了让距离计算更合理,但如果特征是离散的,并且不用one-hot编码就可以很合理的计算出距离,那么就没必要进行one-hot编码。 有些基于树的算法在处理变量时,并不是基于向量空间度量,数值只是个类别符号,即没有偏序关系,所以不用进行独热编码。 Tree Model不太需要one-hot编码: 对于决策树来说,one-hot的本质是增加树的深度。

LR是适合使用ID类特征的,原因在于LR适合接受超高维度的特征输入。

OneHotEncoder独热编码和 LabelEncoder标签编码
分类变量,进行One hot编码,维度升高,如何处理?
hashing trick或者feature hashing是什么
类别型特征的处理方法与平均数编码
How to deal with Features having high cardinality
机器学习中如何利用id类特征?
https://www.zhihu.com/question/266195966

相关文章

  • One hot编码维度过高解决方法

    根据类别特征的意义进行合并(分桶) 将类别按频次排序,频次特别低的一部分合并 特征哈希 PCA降维 按照该特征对应...

  • One-hot与Word2Vec

    one-hot是文本向量化最常用的方法之一。 1.1 one-hot编码 什么是one-hot编码?one-hot...

  • tf.one_hot()用法 独热编码

    tf.one_hot()进行独热编码 首先肯定需要解释下什么叫做独热编码(one-hot encoding),独热...

  • One-Hot编码

    对离散型特征进行one-hot编码是为了让距离的计算显得更加合理。 离散特征进行one-hot编码后,编码后的特征...

  • one hot编码

    一、什么是one-hot编码? One-Hot编码,又称为一位有效编码,主要是采用N位状态寄存器来对N个状态进行编...

  • 多类分割One-hot 编码实现方式(转)

    原链接:数据预处理 One-hot 编码的两种实现方式 1. 什么是 One-hot 编码 最直观的理解就是,比如...

  • 用Numpy快速实现one_hot编码标签

    机器学习的分类问题,常用one_hot编码方式做为标签;经常会需要将连续的整型标签值转化为one_hot编码标签,...

  • one-hot encoding

    我是搬运工 One-Hot Encoding One-Hot编码,又称为一位有效编码,主要是采用N位状态寄存器来对...

  • 特征提取之pd.get_dummies()

    跳转链接 pandas提供对one-hot编码的函数是:pd.get_dummies() one-hot的基本思想...

  • one-hot encoding 与dummy encoding

    One-Hot编码和哑变量应该怎么用 考虑一个具有三个类别的离散型特征,采用One-Hot 编码后: 其中 因此有...

网友评论

      本文标题:One hot编码维度过高解决方法

      本文链接:https://www.haomeiwen.com/subject/yarckctx.html