机器学习中特征选择

作者: videoisfun | 来源:发表于2021-12-28 23:04 被阅读0次

机器学习需要从数据里面学习，可不是所有数据都可以进行学习。一般在做训练之前，首先需要把raw data转换成特征向量(Feature vector)，如下图所示：

image.png

很多ML Model都需要特征向量是实数的vector，方便训练时候做数学运算。根据raw data的类型有不同的转换方法：

数值型：直接转换成real number，什么时候做cap/transform?
类型值：可以定义一个词典，里面包含所有可能的类型，把某个类型映射到一个具体的数，如果出现没有定义的类型，则把这种类型算作其他。譬如说上图中street_name这个feature，就可以建一个字典，包含可能的街道名字，如

{'Charleston Road', 'North Shoreline Boulevard', 'Shorebird Way', 'Rengstorff Avenue'}

这样，就可以把街道名映射到number，例如

通过直接使用index的方式，虽然可以用字符串的feature做数学运算了，但实际做的时候会有问题；

因为模型对stream_name这个feature学出来一个weight，如果模型希望能够根据stream_name来预测房屋价格，那么使用这个feature得到的结果，就是房屋价格和街道名字是线性相关的，而且这个价格是和街道名线性相关的。
streat_name不能采用多个值；
为了解决这两个限制，需要创建一个二进制vector来表示这个feature，这种表示方式叫做one-hot encoding。下图展示了one-hot encoding的编码方式：