美文网首页
特征工程

特征工程

作者: 小猪Piglet | 来源:发表于2019-06-11 18:47 被阅读0次

1 特征提取

1.1 定义

将任意数据(文本或者图像)转换为可以用于寄去学习的数字特征。特征值话是为了让计算机更好的理解数据。

  • 特征提取分类
    -字典特征提取值
    -文本特征提取值
    -图像特征提取值

1.2 特征提取API

sklearn.feature_extraction

2 字典特征值提取

作用:对字典数据进行特征值化

sklearn.feature_extraction.DictVectorizer(sparse=True,...)
#注意sparse参数的设置
DictVectorizer.fit_transform(X)
#X:字典或者包含字典的迭代器返回值
#返回sparse矩阵
DictVectorizer.get_feature_names()返回特征名

2.3 总结

对于特征中存在类别信息的,做one-hot编码处理

3 文本特征提取

作用:对文本数据进行特征值化

  • sklearn.Feature_extraction.Text.CountVectorizer(stop_words=[])

    -返回词频矩阵
    -CountVectorizer.fit_transform(X)

    • X:文本或者包含文本字符串的可迭代对象
    • 返回值:返回sparse矩阵
      -CountVectorizer.get_feature_names() 返回值:单词列表
  • sklearn.feature_extraction.text.TfilfVectorizer

3.1 应用

1.英文分词
2.中文分词(不支持单个字)需要下载jieba,利用jieba.cutfanhui 词语组成的生成器
3.Tf-idf文本特征提取

  • Tf-idf的主要思想是:如果某个词或者短语在一篇文章中出现的频率高,并且在其他文章中出现的频率小,则认为该词有很好的类别区分能力,适合用来分类。
  • Tf-idf作用:用于评估一个字对于一个文件或者一个语料库中的其中一份文件的重要程度。分类机器学习算法进行文章分类中前期数据处理方式

3.5.1 公式

  • 词频(term frequency,tf)指的是某一个给定的词语在该文件中出现的频率
  • 逆向文档频率(inverse document frequency,idf)是一个词语普遍重要性的度量。某一特定词语的idf,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取以10为底的对数得到

最终得出结果可以理解为重要程度。


tfidf公式.png
举例:
假如一篇文章的总词语数是100个,而词语"非常"出现了5次,那么"非常"一词在该文件中的词频就是5/100=0.05。
而计算文件频率(IDF)的方法是以文件集的文件总数,除以出现"非常"一词的文件数。
所以,如果"非常"一词在1,0000份文件出现过,而文件总数是10,000,000份的话,
其逆向文件频率就是lg(10,000,000 / 1,0000)=3。
最后"非常"对于这篇文档的tf-idf的分数为0.05 * 3=0.15

相关文章

  • 2018-04-03-机器学习相关

    No.1 特征工程 (1)使用sklearn做单机特征工程 - jasonfreak - 博客园 (2)特征工程实...

  • 机器学习之特征工程

    目录大纲 特征工程是什么? 特征工程的重要性 特征工程子问题:1.特征处理2.Feature Selection(...

  • 使用sklearn做单机特征工程

    使用sklearn做单机特征工程 | 转载 使用sklearn做单机特征工程 目录1 特征工程是什么?2 数据预处...

  • 特征工程

    http://www.cnblogs.com/jasonfreak/p/5448385.html

  • 特征工程

    特征工程  我们做比赛的初衷是想在比赛中锻炼用深度学习模型解决实际问题的能力。所以我们做特征工程时更多的考虑了深度...

  • 特征工程

    目录 1 特征工程是什么?2 数据预处理2.1 无量纲化2.1.1 标准化2.1.2 区间缩放法2.1.3 标准化...

  • 特征工程

    数据和特征的质量决定了机器学习的上限,而模型和算法只是不断逼近这个上限而已 数据清洗 数据样本抽样 异常值(空值处...

  • 特征工程

  • 特征工程

    首先,给一张特征工程的思维导图: 【如果要浏览图片,建议将其下载到本地,使用图片浏览软件查看】 关于特征工程(Fe...

  • 特征工程

    Feature Enginnering 应用机器学习的本质是特征工程。通过特征工程,我们能持续地提升效果,而模型算...

网友评论

      本文标题:特征工程

      本文链接:https://www.haomeiwen.com/subject/bmfcfctx.html