美文网首页
35. 日月光华 Python数据分析 - 机器学习 - 自然语

35. 日月光华 Python数据分析 - 机器学习 - 自然语

作者: 薛东弗斯 | 来源:发表于2023-08-13 22:17 被阅读0次
    image.png
    image.png

    独热编码比较简单/直观,当有10000个单词,则构成一万维向量,当某一单词出现时,该单词所在位置置为1. 缺点:独热编码产生的数据非常稀疏,当处理文本时,单词量非常大,则组成的矩阵过大。
    散列编码:缺点是,当单词量大时,容易产生冲突
    词嵌入:会考虑文本间的相似性。 比如北京与首都的关系就会比较近,北京与老鼠之间的关系就会比较远
    TF-IDF算法:也是比较好的方法。


    image.png
    image.png

    词袋表示:单词出现时,表示为1


    image.png
    横轴为文档,纵轴为每个单词在该文档中出现的次数
    image.png
    image.png
    image.png
    image.png
    image.png
    image.png
    image.png
    image.png
    image.png
    image.png
    image.png
    image.png
    image.png

    相关文章

      网友评论

          本文标题:35. 日月光华 Python数据分析 - 机器学习 - 自然语

          本文链接:https://www.haomeiwen.com/subject/qdyxmdtx.html