【SEO】TF-IDF之余弦相似度

作者: 麒麟楚庄王 | 来源:发表于2018-11-22 21:37 被阅读0次

【SEO】TF-IDF之余弦相似度
TF-IDF与余弦相似性的应用 - 学习笔记
余弦相似度计算
模型评估——余弦距离的应用
1.TF-IDF
Numpy计算余弦相似度：向量之间，向量与矩阵，矩阵与矩阵
为什么用余弦相似度，而不是欧式距离？
20-余弦相似度及其R实现
相似度计算(余弦相似度、欧氏距离、杰卡德相似度、皮尔逊相似度)
SEO算法之TF-IDF算法

https://www.simcf.cc/3590.html/
谷歌已经使用TF-IDF作为内容排名因素很长一段时间，因为搜索引擎似乎更关注术语频率而不是而不是计算关键字。虽然算法的视觉复杂性可能会让很多人失望，但重要的是要认识到理解TF-IDF并不像知道它如何工作那么重要。

搜索引擎使用TF-IDF来更好地理解被低估的内容。例如，如果您想在Google上搜索“可口可乐”一词，Google就可以确定标题为“COKE”的页面是关于：

a）可口可乐。

b）可卡因

c）源自原油蒸馏的固体富碳残余物

d）德克萨斯州的一个县

本文的目的是通过TF-IDF的未知主题指导所有内容编写者和SEO专家。通过更好地了解Google如何利用此算法，内容编写者可以对TF-IDF进行逆向工程，从而优化网站内容，使其更好地适用于用户和搜索引擎。并且SEO可以将其用作搜索具有更高搜索量和相对较低竞争的关键字的工具。

TF-IDF是什么？

TF-IDF是一种信息检索技术，它对术语的频率（TF）和逆文档频率（IDF）进行加权。每个单词或术语都有其各自的TF和IDF分数。术语的TF和IDF得分的乘积称为该术语的TF-IDF权重。

简而言之，TF-IDF得分（重量）越高，该术语越罕见，反之亦然。

TF-IDF算法用于权衡任何内容中的关键字，并根据该关键字在文档中出现的次数指定该关键字的重要性。更重要的是，它会检查关键字在整个网络中的相关程度，即所谓的语料库。

对于术语吨在文档d，重量重量％，d的文件中术语d t通过下式给出：

Wt，d = TFt，d log（N / DFt）

TFt，d是文档d中t的出现次数。

DFt是包含术语t的文档数。

N是语料库中的文档总数。

好吧。如果您感到头痛，请不要惊慌。

让我们更具体地定义它。

TF-IDF定义

单词的TF（术语频率）是文档中单词的频率（即它出现的次数）。当你知道它时，你就可以看到你使用的术语是太多还是太少。

例如，当一个100字的文档包含12次“cat”这个词时，“cat”这个词的TF就是

TFcat = 12/100即0.12

单词的IDF（逆文档频率）是该术语在整个语料库中的重要程度的度量。

例如，假设术语“cat”在10,000,000,000文档大小的语料库（即web）中出现x次。假设有30万个文档包含术语“cat”，那么IDF（即log {DF}）由文档总数（10,000,000）除以包含术语“cat”的文档数量（300,000））。

IDF（cat）= log（10,000,000 / 300,000）= 1.52

∴Wcat=（TF * IDF）cat = 0.12 * 1.52 = 0.182

既然你想出了这个（对吧？），让我们来看看这对你有什么好处。

如何使用TF-IDF获益

收集话语。写下你的内容，为您的单词运行TF-IDF报告并获取其权重。数值权重值越高，该项越少。重量越小，该术语越常见。比较所有具有高TF-IDF权重的术语与其在Web上的搜索量。选择搜索量较高，竞争较慢的用户。

一个好的经验法则是，您的内容对用户“有意义”越多，搜索引擎分配的权重就越大。对于内容中TF-IDF较高的单词，您的内容将始终位于搜索结果中，因此您可以：

不要担心使用停用词，成功搜索具有更高搜索量和更低竞争力的词汇，

请确保使用能使您的内容与用户相关且与用户相关的单词等。

网友评论

本文标题：【SEO】TF-IDF之余弦相似度

本文链接：https://www.haomeiwen.com/subject/jvvrqqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

【SEO】TF-IDF之余弦相似度

相关文章