顾名思义,百度蜘蛛爬行的数量是指百度蜘蛛每天爬行的页数。
据我们所知,百度蜘蛛有两个目标:一个是本网站生成的新网页,另一个是百度之前已抓取但需要更新的网页。
如果不是很好理解,这里有一个适合每个人的例子:
例如,如果一个网站已被包含在百度中2w,那么百度将给出一个时间段,例如15天,然后平均,然后每天在网站上获得2W / 15这样的数字。当然,具体数字绝对不是这个。这是百度的内部数据。
以下是影响网站上抓取的百度蜘蛛数量的因素的详细介绍。
1:网站安全
对于中小型站点,由于缺乏安全技术意识和技术弱点,网站被篡改是很常见的。有几种常见的黑客攻击情况。一个是网站域名被黑客攻击,另一个是标题被篡改,另一个是页面中添加了很多黑链。对于一般网站,域名被劫持,即域名设置为301跳转,并跳转到指定的垃圾邮件网站。如果百度发现这种跳跃,那么你网站的抓取就会减少,甚至会减少惩罚。
2:内容质量
此外,网站内容的质量也非常重要。如果蜘蛛在我们的网站上抓取了100,000条内容,并且只构建了100条或更少的内容,那么百度蜘蛛也会减少网站的抓取量。因为百度认为我们的网站质量很差,所以没有必要抓住更多。因此,我们特别提醒您在站点建设之初需要注意内容的质量,不要收集内容。这对网站的发展有潜在的隐患。
3:网站响应速度快
①网页的大小将影响抓取。百度建议网页的大小不到1M,当然类似于新浪网这样的大型门户网站。
②代码质量,机器性能和带宽。这些会影响抓取的质量。不用说,代码本身的质量也根据程序执行。您的代码质量差,难以阅读。蜘蛛自然不会浪费时间阅读。机器性能和带宽也是如此。服务器配置太差,带宽不足会导致蜘蛛抓取网站,这将严重影响蜘蛛的热情。
4:具有相同ip的网站数量
百度抓取是基于ip抓取的。例如,百度每天可以在ip上捕获2000w页面,并且该站点上有50W站点,因此将抓取平均站点数量。很少点。同时,你需要注意看同一个ip上是否有一个大站。如果有一个大站,那么分配很少的抓取数量将被大站带走。
网友评论