搜索引擎多久如何更新已经抓取的页面
搜索引擎更新策略的任务是决定何时重新抓取之前下载过的网页,以尽可能是的本地下载的网页与互联网原始页面保持一致。常用的网页更新策略:
1、历史参考策略
这个策略建设在假设之上,过去频繁更新的网页,那么将来也会频繁更新。所以为了预估多久更新,可以参考以前的网页的更新频率。
2、用户体验策略
这种策略以用户体验为核心,即使本地索引的页面内容是过时的但是如果不影响用户体验,那么晚些更新也未尝不可。所以何时更新网页为好,取决一个网页的内容改变所带来搜索质量的变化(往往采用搜索结果排名变化衡量),影响越大,则更新越快。
3、聚类抽样调查
相对之前两种策略,都是依靠历史记录来判断的,如果是一个新站那么没法依据历史数据判别,聚类抽样就很好解决了没有历史数据同样可以可以判别多久更新。如何实现?
首先根据页面所表现的特征,将其聚类成不同的类别。每个类别具有相似的更新周期。从类别中抽取一部分代表性的页面,计算其更新周期,那么这个周期也适用类别中的其他页面,之后可根据所属类别决定其更新频率。
聚类抽样策略效果好于前两者,但是对于数亿计的网页进行聚类,其难度也是非常大的。(ps:内容摘自《这就是搜索引擎核心技术详解》)
讲了以上原理,作为seo可以做一些调整更快的让搜索引擎更新我们网页的数据。
除了保持更新频率,页面中的一些调整(栏目的变化创建等等)和提高网站用户体验度等都是加快更新搜索引擎收录的页面。
网友评论