未整理版的记录

作者: 漱衣仁止 | 来源:发表于2021-12-01 12:09 被阅读0次

未整理版的记录
语音写作内容（勿进）
序
程序猿英语词汇整理2019-08-18
对于 Laravel 路由请求跨域问题的解决方案
【C++】本文集说明
python的魔法函数（双下划线开头和结尾）2019-08-18
小白入门编程常见单词
一些小技巧的记录（未整理）
未整理

余弦相似度

余弦值越接近1，就表明夹角越接近0度，也就是两个向量越相似。可以看作是-1，1的这种取值，余弦值越大，夹角越小，所以越相似。

tf-idf

tf-idf是把在很多文章中都出现的单词视为了不重要的单词，所以词语w出现在多少文档作为了分母，出现次数越多，单词重要性越少。

一个词的重要程度跟它在文章中出现的次数成正比，跟它在语料库出现的次数成反比。这种计算方式能有效避免常用词对关键词的影响，提高了关键词与文章之间的相关性。其中TF指的是某词在文章中出现的总次数，该指标通常会被归一化定义为TF=（某词在文档中出现的次数/文档的总词量），这样可以防止结果偏向过长的文档（同一个词语在长文档里通常会具有比短文档更高的词频）。IDF逆向文档频率，包含某词语的文档越少，IDF值越大，说明该词语具有很强的区分能力，IDF=loge（语料库中文档总数/包含该词的文档数+1），+1的原因是避免分母为0。TFIDF=TFxIDF，TFIDF值越大表示该特征词对这个文本的重要性越大。

TF：词频（某个词在文章中出现的次数/文章的总次数）与词语的重要性成正比

IDF：逆文档频率。需要一个语料库（corpus），用来模拟语言的使用环境。

如果一个词越常见，分母越大，逆文档频率越接近0。分母加1是为了避免分母为0。一个词在越多的文档中出现表明它越不重要

当有TF(词频)和IDF(逆文档频率)后，将这两个词相乘，就能得到一个词的TF-IDF的值。某个词在文章中的TF-IDF越大，那么一般而言这个词在这篇文章的重要性会越高，所以通过计算文章中各个词的TF-IDF，由大到小排序，排在最前面的几个词，就是该文章的关键词。

独热编码和词向量是两种不同的映射转换方式，前者具有稀疏性Sparsity，后者具有稠密性Density。TF-IDF作为文本表示领域最有效的基准，可被应用于（1）搜索引擎；（2）关键词提取；（3）文本相似性；（4）文本摘要。

独热编码到词向量

独热编码不能用来衡量两个词语之间的相似度，因为用了count vector的方法，稀疏性很高，所以会出现很多内积为0的情况；但是可以用来表示句子之间的相似度，个人认为是因为句子的向量表示基于词的向量表示，稀疏性没有词的独热编码大，所以不会出现大片为0的情况，但是我还是发现了很多计算余弦相似度的时候内积为0的情况，基于独热编码的表示有tf-idf方法，适用很广，考虑了单词的权重。

词向量（分布式表示)技术比独热编码出现晚，应该是为了解决词语之间相似度的问题，也有基于词向量的句子表示。需要注意的是独热编码和词向量是两套体系，从词语到句子的表示应该遵从于两套体系，但是有时候可以混着用。

独热编码和词向量只是两种不同的向量表示方法，但是比较向量相似度的方法，如欧氏距离和余弦相似度还是通用的。

小结：

单词的独热编码和分布式表示是两种完全不一样的编码方式。

这两种不同的编码方式是目前文本表示的两个方向，有些时候传统的独热编码的方式可能更适合，有些时候分布式表示法更适合，具体还是要通过测试来获得结论。

独热编码的最大的问题是不能表示一个单词的含义。

词向量的质量取决于词向量训练模型，不同的模型所给出的结果是不一样的。

网友评论

本文标题：未整理版的记录

本文链接：https://www.haomeiwen.com/subject/ewrsxrtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

未整理版的记录

余弦相似度

tf-idf

独热编码到词向量

相关文章

未整理版的记录

语音写作内容（勿进）

序

程序猿英语词汇整理2019-08-18

对于 Laravel 路由请求跨域问题的解决方案

【C++】本文集说明

python的魔法函数（双下划线开头和结尾）2019-08-18

小白入门编程常见单词

一些小技巧的记录（未整理）

未整理

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读