从数据中提取有用特征

从数据中提取有用特征

作者: 松松土_0b13 | 来源:发表于2020-01-09 15:43 被阅读0次

几乎所有的机器学习模型都是与用向量表示的数值特征打交道。因此，需要将原始数据转换为数值。

数值特征：这些特征通常为实数或整数，比如年龄
类别特征：它们的取值只能是可能状态集合中的某一种。性别、职业或者电影类别便是这类特征。
文本特征：它们派生自数据中的文本内容，比如电影名、描述或评论。
其他特征：大部分其他特征最终都表示为数值。比如图像、音频和视频，地理位置则可由经纬度或地理散列（geohash）表示

类别特征

当类别特征为原始形式时，其取值来自所有可能取值所构成的集合，而不是一个数字，故不能作为输入。
将类别特征表示为数字形式，常可借助k之1（1-of-k）编码方法进行。

词袋分词法

如果每个单词都是一种可能的取值，那么可能出现的单词组合几乎有无限种。这时模型几乎看不到有相同的特征出现两次，学习效果也不理想，因此需要将原始的文本转换为一种更便于机器学习的形式。

分词（tokenization）：可用的方法如空白分词法，在空白处对文本进行分割，可能同时还删除标点符号和其他非字母或数字字符
删除停用词：比如the、and和but
提取词干：将各个词项简化为其基本的形式或者干词。比如dogs变为dog
向量化：一般用k之1编码，然后用稀疏矩阵来表示

另外还有一个特征抽取的神器：word2vec，有兴趣可以参考这篇文章《通俗理解word2vec》

相关文章

网友评论

本文标题：从数据中提取有用特征

本文链接：https://www.haomeiwen.com/subject/zupsactx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|从数据中提取有用特征|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！