美文网首页
nlp学习笔记-task3

nlp学习笔记-task3

作者: Demon4smart | 来源:发表于2020-07-25 23:14 被阅读0次

    学习目标

    • 学会TF-IDF的原理和使用
    • 使用sklearn的机器学习模型完成文本分类

    文本表示方法

    One-hot

    将每一个单词使用一个离散的向量表示

    Bag of Words

    词袋表示, 也称为Count Vectors, 每个文档的字/词可以使用其出现次数来表示

    N-gram

    对比Bag of Words加入了相邻单词组成新的单词, n代表相邻几个单词组成新的单词

    TF-IDF

    TF 词语频率(Term Frequency) TF = 该词语在当前文档出现的次数 / 当前文章中词语的总数

    IDF = log e(文档总数 / 出现该词语的文档总数)

    用于评估一个字词对于一个文件集或一个语料库的其中一份文件的重要程度. 粗略的理解就是, 一个词只在一个文本集合中出现频率高未必重要, 还要看在整个文本库的出现频率.

    课后实操

    截屏2020-07-25 下午11.49.55.png

    相关文章

      网友评论

          本文标题:nlp学习笔记-task3

          本文链接:https://www.haomeiwen.com/subject/gujvlktx.html