人类和机器对于重复内容的判断机制不同,会导致误判的情况。如何利用好机器判断重复内容的规则,突出重围呢?请认真看这篇文章。
Google PageRank是基于大数据智能算法,它们往往缺乏人类自带的技能:常识。
众所周知,在多个页面上放置相同的内容会产生重复的内容。但是如果你创建关于类似产品的页面会有什么影响呢?算法会将它们标记为重复,但其实他们完全是不相同的两个产品。比如:
· 电子商务:具有多种型号或关键差异的类似产品
· 旅游:酒店的分店,目的地套餐,内容相似
· 分类:相同项目的详尽列表
· 业务:本地分支机构的页面,在不同地区提供相同的服务
一重复内容很危险
网站会出现以下情况:
· 丢失竞争相同关键字的唯一网页的排名
· 无法对群集中的网页进行排名,因为Google选择了一个网页作为规范
· 大量精简内容丢失了网站权限
二机器如何识别重复内容
Google使用算法来确定两个页面或部分页面是否是重复内容,而Google将其定义为“ 明显相似 ”的内容。
谷歌的相似性检测基于他们的专利Simhash算法,该算法可以分析网页上的内容块。然后,它为每个块计算唯一标识符,并为每个页面组成一个散列或“指纹”。
由于网页数量巨大,因此可扩展性至关重要。目前,Simhash是大规模查找重复内容的唯一可行方法。
Simhash指纹:
· 计算成本低廉,它们是在页面的单个爬网中建立的。
· 固定长度,易于比较。
· 能够找到近乎重复的东西,与许多其他算法不同,它们将页面上的微小变化等同于散列中的微小变化。
这意味着任何两个指纹之间的差异可以通过算法测量并显示为百分比。为了降低评估每一页网页的成本,Google采用了以下技术:
· 聚类:通过将多组足够相似的页面分组在一起,只需要比较聚类中的指纹,因为其他所有指针都已被分类为不同。
· 估计:对于异常大的聚类,在计算一定数量的指纹对之后应用平均相似性。
比较页面指纹。来源:用于网络抓取的近似重复文档检测(Google专利)
最后,谷歌使用加权相似率排除相同内容的某些块(样板:标题,导航,侧边栏,页脚,免责声明......)。它考虑了页面的主题,使用n-gram分析来确定页面上哪些词最常出现,并且在站点的上下文中是最重要的。
三使用Simhash分析重复内容
我们将使用Simhash查看标记为相似的内容集群的地图。OnCrawl的此图表覆盖了对重复内容群集的重复内容策略的分析。
OnCrawl的内容分析还包括相似性比率,内容聚类和n-gram分析。OnCrawl还在开发一个实验性热图,表明每个内容块的相似性可以覆盖在网页上。
按内容相似性映射网站。每个块表示具有类似内容的集群。颜色表示每个群集的规范化策略的一致性。资料来源:OnCrawl。
四使用规范验证集群
使用规范URL来指示一组相似页面中的主页面是一种有意聚集页面的方式。理想情况下,由规范创建的集群和由Simhash建立的集群应该是相同的。
标准聚类匹配相似性聚类(绿色)。突出显示:6页100%相似。您的规范政策和Google的Simhash分析以同样的方式对待它们。
如果不是这种情况,通常是因为您的网站上没有规范的政策:
没有规范声明:每个数百页的集群,平均相似率为99-100%。Google可能会施加规范网址。您无法控制哪些页面将排名,哪些页面不排名。
或者因为您的规范策略与Google用于对类似内容进行分组的方法之间存在冲突:
规范的问题:具有超过80%相似性的大型集群和每个集群的多个规范URL。Google会强制使用自己的规范网址,或者将您希望保留的重复网页编入索引。
您网站的群集与上面的群集不同。您已经遵循了重复内容的最佳做法。包含相同内容的网址(例如可打印/移动版本或CMS生成的备用网址)会声明正确的规范网址。
规范化后映射相似性聚类。
过滤掉规范策略正确处理的重复内容,其余的非规范化URL是您要排名的页面。
在删除经验证的(绿色)簇和具有小于80%相似性的簇之后的先前映射。其余46个集群中的大多数只有2页。
仍然出现在基于Simhash和语义分析的群集中的网址是您和Google不同意的网址。
五解决重复内容问题
没有令人满意的技巧来纠正机器对看似重复的独特页面的看法:我们无法改变Google识别重复内容的方式。但是,仍然有一些解决方案可以使您对独特内容和Google的感知保持一致......同时仍然会根据您需要的关键字进行排名。
以下是适应您网站的五种策略。
1、解决边缘情况首先查看边缘情况:具有非常低或非常高的相似率的聚类。
· 相似度低于20%:相似,但不太相似。您可以通过链接群集中的页面,使用每个页面的不同锚文本,通知Google将它们视为不同的页面。
· 最大相似度:找出潜在问题。您需要丰富内容以区分页面或将页面合并为一个页面。
2、减少相似页面的数量页面不要追求数量,需要追求质量。大量的重复页面,可能会产生页面里面小块内容高相似度,会被搜索引擎认为是重复页面,影响到网站的整体的索引。
资料来源:OnCrawl。
3、使页面独特请记住:内容的微小差异会在Simhash指纹中产生细微差别。您需要对页面上的内容进行重大更改,而不是进行小的调整。
丰富页面内容:
· 向页面添加文本内容
o 添加不同的图像描述
o 包括完整的客户评论(如果评论适用于多个页面,请合并页面)
o 添加其他信息
o 添加相关信息
· 使用不同的图像
· 使用非常不同的锚文本测试链接到不同的页面
· 减少类似页面之间共同的源代码量
· 提高页面的语义密度
o 增加与主题相关的词汇量并减少填充
4、创建排名参考页面
如果无法或不适合丰富您的页面,请考虑创建一个代替所有“重复”页面的单个参考页面。此策略使用与内容中心相同的原则来提升多个关键字的主页面。当您需要将多个版本的产品作为单独的页面进行维护时,它尤其有用。
此策略可用于创建定位需求或季节性机会的网页。它可以通过提供更强大的语义和排名来改善页面群。
它还可以使分类广告网站,招聘网站和其他具有许多通常类似列表的网站受益。参考页面应按单个特征对列表进行分组。
该怎么办:
1. 创建一个参考页面,汇集所有“重复”产品页面的语义内容。它应该宣传您要使用的所有关键字并链接到所有“重复”页面。
2. 将每个“重复”页面的规范URL设置为参考页面,将参考页面的规范URL设置为自身。
3. “重复”页面之间的链接。
4. 优化网站导航以推广参考页面。
通过“重复”页面,规范声明和组合内容的链接加强,参考页面很容易排名。
5、合并你的页面您一直在尝试使用相同的内容来丰富页面?你无法解释为什么要保留它们?可能是时候将它们结合起来了。
如果您决定将您的网页合并为一个:
· 保持表现最佳的网址。
· 将您正在删除的页面重定向(301)到您要保留的页面。
· 将您要删除的页面中的内容添加到您保留的页面中,并对其进行优化以对所有群集的关键字进行排名。
六重复内容的未来
Google理解页面内容的能力不断发展,越来越精确的识别样板以及区分网页上的意图,被识别为重复的独特内容最终将成为过去式。
在那之前,了解为什么你的内容看起来是重复的,并使其适应谷歌的规则,是类似网页成功搜索引擎优化的关键。
文章来源:Why websites should be using HSTS to improve security and SEO
网友评论