独热码,在英文中称作one-hot code,直观来说就是有多少个状态就有多少比特,而且只有一个比特为1,其他全为0这一种码制。
这里之所以要讲解独热码,是因为后续篇章中会将标签转为one-hotencoding方式。
我们只是简单介绍下独热码。 假如只有一个特征是离散值:{sex:{male,female,other}}。该特征总共包含3个不同的分类值,此时需要3个bit位表示该特征是什么值,bit位为1的位置对应于原特征的值。
此时得到的独热码分别为:{100}男性、{010}女性、{001}其他。
假如多个特征需要独热码编码,那么按照上面的方法依次将每个特征的独热码拼接起来就是: {sex:{male, female,other}}
{grade:{一年级,二年级,三年级,四年级}} 此时对于输入{sex:male;grade:四年级}进行独热码编码,可以首先将sex按照上面的内容进行编码得到{100},然后按照grade进行编码得到{0001},那么两者连接起来就能得到最后的独热码{1000001}。
网友评论