image.png
独热编码比较简单/直观,当有10000个单词,则构成一万维向量,当某一单词出现时,该单词所在位置置为1. 缺点:独热编码产生的数据非常稀疏,当处理文本时,单词量非常大,则组成的矩阵过大。
散列编码:缺点是,当单词量大时,容易产生冲突
词嵌入:会考虑文本间的相似性。 比如北京与首都的关系就会比较近,北京与老鼠之间的关系就会比较远
TF-IDF算法:也是比较好的方法。
image.png
image.png
词袋表示:单词出现时,表示为1
image.png
横轴为文档,纵轴为每个单词在该文档中出现的次数
image.png
image.png
image.png
image.png
image.png
image.png
image.png
image.png
image.png
image.png
image.png
image.png
image.png
网友评论