美文网首页
4.文本预处理

4.文本预处理

作者: 空无_ae80 | 来源:发表于2020-08-10 08:07 被阅读0次

    文本数据的基本体征提取

    词汇数量 (理由:负面情绪评论含有词语数量比正面情绪评论多)

    字符数量 (理由:负面情绪评论含有词语数量比正面情绪评论多)

    平均字长(所有单词的长度然后除以每条推文单词的个数,即可作为平均词汇长度)

    停用词数量

    特殊字符数量(提取“#”和“@”符号的数量。这也有利于我们从文本数据中提取更多信息)

    数字数量(数字数量是一个比较有用的特征)

    大写字母数量

    文本数据的基本预处理

    小写转换

    去除标点符号

    去除停用词

    去除频现词

    去除稀疏词

    拼写校正

    分词(tokenization)

    词干提取(stemming)

    词形还原(lemmatization)

    高级文本处理

    N-grams语言模型

    词频

    逆文档频率

    TF-IDF

    词袋

    情感分析

    词嵌入

    相关文章

      网友评论

          本文标题:4.文本预处理

          本文链接:https://www.haomeiwen.com/subject/sgbkrktx.html