美文网首页
one-hot编码

one-hot编码

作者: carebon | 来源:发表于2021-09-27 20:32 被阅读0次

1.什么是One_Hot?
对于这个问题,之前谷歌了一下,还涉及寄存器了(one-hot编码是N位状态寄存器为N个状态进行编码的方式)。。真的无语。这里不说那些很底层的,我们只需要了解one-hot编码是将类别变量转换为机器学习算法中容易处理的一种形式!

概念太抽象了,对太抽了,那么从实际例子来说明。

如下我们有两个特征: image.png

我们看到有两个特证名为:animal与food,解释一下两列值意思,第一列代表的是动物的名字,第二列是食物的个数,比如第一行cat 2 描述为猫吃了两个食物,这里是测试数据,主要是想通过,这些数据给予直观的认识及实际操作。

而对上述数据做one-hot编码后得结果为: image.png

animal列数据类型是字符串,而第二列是数值型,如果我们能将这些特征值用0/1表示,是不是在机器学习中,对这些非连续值非常有帮助。

综上,我们推论出,如果你在处理的数据中,通过特征工程这一步操作,能够将特征的类型判别出来,哪些是连续的,哪些是非连续的,那么我们就可以对它进行特殊处理,比如此处的one-hot编码!

2.One_Hot编码处理离散特征
在使用one-hot编码中,我们可以将离散特征的取值扩展到欧式空间,在机器学习中,我们的研究范围就是在欧式空间中,首先这一步,保证了能够适用于机器学习中;而;另外了对于one-hot处理的离散的特征的某个取值也就对应了欧式空间的某个点!

那么对于上面这句话,你会有很多疑问,比如:为何one-hot编码能将离散特征映射到欧式空间?

原因是,在统计机器学习算法中的回归,分类这些问题中,特征之间距离的计算或相似度计算非常重要,比如大家常用的k-means,而我们常用的这些计算都在欧式空间中进行相似度计算。换句话说,就是我上面说的研究范围在欧式空间,保证了one-hot编码的成立!
原文地址:https://zhuanlan.zhihu.com/p/47072174

相关文章

  • One-hot与Word2Vec

    one-hot是文本向量化最常用的方法之一。 1.1 one-hot编码 什么是one-hot编码?one-hot...

  • One-Hot编码

    对离散型特征进行one-hot编码是为了让距离的计算显得更加合理。 离散特征进行one-hot编码后,编码后的特征...

  • one hot编码

    一、什么是one-hot编码? One-Hot编码,又称为一位有效编码,主要是采用N位状态寄存器来对N个状态进行编...

  • 多类分割One-hot 编码实现方式(转)

    原链接:数据预处理 One-hot 编码的两种实现方式 1. 什么是 One-hot 编码 最直观的理解就是,比如...

  • one-hot encoding

    我是搬运工 One-Hot Encoding One-Hot编码,又称为一位有效编码,主要是采用N位状态寄存器来对...

  • one-hot encoding 与dummy encoding

    One-Hot编码和哑变量应该怎么用 考虑一个具有三个类别的离散型特征,采用One-Hot 编码后: 其中 因此有...

  • 特征提取之pd.get_dummies()

    跳转链接 pandas提供对one-hot编码的函数是:pd.get_dummies() one-hot的基本思想...

  • one-hot编码

    原文链接:one-hot编码 微信公众号:机器学习养成记 搜索添加微信公众号:chenchenwings 与上一...

  • one-hot编码

    对于一些没有排序关系的分类变量(例如{香蕉,苹果,草莓,西瓜}),很多参考资料说转化成one-hot编码来训练。我...

  • one-hot 编码

    定义 独热码,在英文文献中称做 one-hot code, 直观来说就是有多少个状态就有多少比特,而且只有一个比特...

网友评论

      本文标题:one-hot编码

      本文链接:https://www.haomeiwen.com/subject/roeknltx.html