最近对我司的SEO项目做了一次内链的升级,把SEO词库中的所有词,
根据一定的算法:
文本相关性算法
语义相关性算法
做了一次词与词的关系构建,也就是所谓的内链建设,
关于内链的重要性,请看我之前的文章 《seo内链的重要性》
当然对小型网站来说是不需要如此复杂的算法来做内链的
因为你的网站词库可能就几百几千个词左右,随便写个相关性的算法就可以召回的很全了,很完整了。
但我负责是大型网站的内链建设,关键词就有千万。
这么大的量,如何才能把这么庞大的关键建立起来呢,
这里用到了以上的两个算法,
当然光是这两个算法还不够,计算需要资源,MR、hadoop 离线计算是必须要有的基础设施,当然你也可以本地搭建跑跑试试
下面说说这两种算法的具体实现方案
1) 文本相关性算法
我采用的是先把query进行分词,比如 连衣裙新款女 -> 连衣裙 新款 女
然后在计算把每个词分出来的term看出一个集合,
判断A与B两个词的相关性,就看下他们两个词集合的交集的个数,然后除以词的长度
浅谈SEO内链建设用到的一些算法知识,SEOer不要只停留在页面上了就得出了A 与 B 的相关性的一个小数的分值,分值越大说明相关性越高
2) 语义相关性算法
要想找两个词的语义相关性,就比文本相关性麻烦点了,因为两个query 都是比较短的,最长也不过20个字
很难把完整的语义表述清楚,那我们怎么办。
这里我只提供下实现的思想吧
可以根据自己的业务数据,补充query的语义描述,举个例子
比如 “自行车” 与 “脚踏车” 这两个query
他们在字面上是不相关的,但我们都知道他们是一个意思,
我们可以给这两个query 补充描述信息,例如调用业务的引擎啊,API 啊 之类的
补全信息之后,我在对这个补全信息分词,然后按照第一个1) 步骤提到的文本相关性去计算
就很容易得出关系了
当然内链的构建不只是这两种算法,大家也可以多去学一学机器学习相关的知识,
SEO 技术其实并不只是肤浅的改改页面,调调结构就可以了,也是需要修炼内功
需要懂一些编程,算法方面的知识的。
基于word2Vecctor,计算词之间的相关性
浅谈SEO内链建设用到的一些算法知识,SEOer不要只停留在页面上了基于word2Vectro将词映射到向量空间后计算向量之间的相似度可以找出相关词。
你看 这不方法很多吗?
今天就先啰嗦到这吧,先下班敢班车了,下次再说
网友评论