Sentence Representation句子表示
1.one-hot编码
基于boolean的单词表示基于boolean的句子表示
基于count的句子表示
2.Sentence Similarity句子的相似性
欧氏距离
欧式距离欧式距离的缺点:
- 没有考虑方向
- 每一维的贡献是相同的
余弦相似度
余弦相似度3.count-based representation的缺点
image.png并不是出现越多,就越重要
4.one-hot编码可以衡量单词之间的语义吗?
one-hot编码下欧式距离与余弦距离均无法衡量单词之间的语义
评估单词之间的语义
另外,当词典过大时,one-hot编码导致词向量过于稀疏,计算时产生维度灾难。
5.tf-idf编码
tf-idf公式tf-idf核心思想:
一个词在词典中出现越多,并且在众多文档中出现越少则越重要(在本文档中具有独特性)。
tf-idf示例
网友评论