![](https://img.haomeiwen.com/i3968643/dd28e865da10c178.png)
![](https://img.haomeiwen.com/i3968643/6d7410ed12508b26.png)
独热编码比较简单/直观,当有10000个单词,则构成一万维向量,当某一单词出现时,该单词所在位置置为1. 缺点:独热编码产生的数据非常稀疏,当处理文本时,单词量非常大,则组成的矩阵过大。
散列编码:缺点是,当单词量大时,容易产生冲突
词嵌入:会考虑文本间的相似性。 比如北京与首都的关系就会比较近,北京与老鼠之间的关系就会比较远
TF-IDF算法:也是比较好的方法。
![](https://img.haomeiwen.com/i3968643/525f33aa7d3ebf5a.png)
![](https://img.haomeiwen.com/i3968643/6b1f73daea2cdd64.png)
词袋表示:单词出现时,表示为1
![](https://img.haomeiwen.com/i3968643/e09d17316384b3dd.png)
横轴为文档,纵轴为每个单词在该文档中出现的次数
![](https://img.haomeiwen.com/i3968643/232e8e30076dc358.png)
![](https://img.haomeiwen.com/i3968643/2248b95d9cfaee7e.png)
![](https://img.haomeiwen.com/i3968643/0fa980a8b783a760.png)
![](https://img.haomeiwen.com/i3968643/1973f9e69a409a8d.png)
![](https://img.haomeiwen.com/i3968643/840db2993df34b5d.png)
![](https://img.haomeiwen.com/i3968643/baeb1135f3cab413.png)
![](https://img.haomeiwen.com/i3968643/a8424906ce2b3f4d.png)
![](https://img.haomeiwen.com/i3968643/8a6eb99d061e8a5c.png)
![](https://img.haomeiwen.com/i3968643/12095eb91cb7fa68.png)
![](https://img.haomeiwen.com/i3968643/d9274884c6e02cb7.png)
![](https://img.haomeiwen.com/i3968643/3c4870e5539755d8.png)
![](https://img.haomeiwen.com/i3968643/019149132306ee95.png)
![](https://img.haomeiwen.com/i3968643/827fc7c2a4a12197.png)
独热编码比较简单/直观,当有10000个单词,则构成一万维向量,当某一单词出现时,该单词所在位置置为1. 缺点:独热编码产生的数据非常稀疏,当处理文本时,单词量非常大,则组成的矩阵过大。
散列编码:缺点是,当单词量大时,容易产生冲突
词嵌入:会考虑文本间的相似性。 比如北京与首都的关系就会比较近,北京与老鼠之间的关系就会比较远
TF-IDF算法:也是比较好的方法。
词袋表示:单词出现时,表示为1
本文标题:35. 日月光华 Python数据分析 - 机器学习 - 自然语
本文链接:https://www.haomeiwen.com/subject/qdyxmdtx.html
网友评论