美文网首页
从数据中提取有用特征

从数据中提取有用特征

作者: 松松土_0b13 | 来源:发表于2020-01-09 15:43 被阅读0次

    几乎所有的机器学习模型都是与用向量表示的数值特征打交道。因此,需要将原始数据转换为数值。

    • 数值特征:这些特征通常为实数或整数,比如年龄
    • 类别特征:它们的取值只能是可能状态集合中的某一种。性别、职业或者电影类别便是这类特征。
    • 文本特征:它们派生自数据中的文本内容,比如电影名、描述或评论。
    • 其他特征:大部分其他特征最终都表示为数值。比如图像、音频和视频,地理位置则可由经纬度或地理散列(geohash)表示
    类别特征

    当类别特征为原始形式时,其取值来自所有可能取值所构成的集合,而不是一个数字,故不能作为输入。
    将类别特征表示为数字形式,常可借助k之1(1-of-k)编码方法进行。

    词袋分词法

    如果每个单词都是一种可能的取值,那么可能出现的单词组合几乎有无限种。这时模型几乎看不到有相同的特征出现两次,学习效果也不理想,因此需要将原始的文本转换为一种更便于机器学习的形式。

    1. 分词(tokenization):可用的方法如空白分词法,在空白处对文本进行分割,可能同时还删除标点符号和其他非字母或数字字符
    2. 删除停用词:比如the、and和but
    3. 提取词干:将各个词项简化为其基本的形式或者干词。比如dogs变为dog
    4. 向量化:一般用k之1编码,然后用稀疏矩阵来表示

    另外还有一个特征抽取的神器:word2vec,有兴趣可以参考这篇文章《通俗理解word2vec》

    相关文章

      网友评论

          本文标题:从数据中提取有用特征

          本文链接:https://www.haomeiwen.com/subject/zupsactx.html