解除WordPress Robots封禁问题以及robots.t

作者: Arison | 来源:发表于2019-01-04 16:52 被阅读2次

解除WordPress Robots封禁问题以及robots.t
HostDeny解除封禁IP
Fail2ban基本命令及解除ban掉的ip
fail2ban 相关命令
使用代理服务器解决无法升级WordPress的问题
WORDPRESS ROBOTS.TXT优化
Codeforce Round#350(Div. 2) 670B
公开日记1331「解禁」
解禁
网络爬虫的分类和问题以及Robots协议

问题产生

百度站点管理-抓取诊断失败

百度站点管理地址：https://ziyuan.baidu.com/site/index

在百度站点管理的时候，点击抓取诊断遇到抓取失败的情况，要知道，抓取失败，意味着你的网站百度没办法收录，这是很严重的事情，必须马上找到问题，然后解决它。

blob.jpg

点开抓取失败的红色标志，查看具体异常详情。发现是Robots封禁

blob.jpg

什么是Robots封禁？

robots是网站跟爬虫间的协议，用简单直接的txt格式文本方式告诉对应的爬虫被允许的权限，也就是说robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。当一个搜索蜘蛛访问一个站点时，它会首先检查该站点根目录下是否存在robots.txt，如果存在，搜索机器人就会按照该文件中的内容来确定访问的范围；如果该文件不存在，所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。详情以及语法请看百度百科-robots

问题排查

查看百度平台工具使用帮助文档

https://ziyuan.baidu.com/college/courseinfo?id=267&page=9#004

【robots封禁问题】
在抓取诊断工具中如果返回的抓取失败结论是robots封禁，请确认您是否对该网址设置了robots，阻止百度spider抓取网站的某些内容，如果您未使用robots文件屏蔽百度，请点击旁边的报错链接，百度会立即更新您站点的robots信息；如果是您的误操作导致了封禁，请及时修改robots文件，避免造成您的网站在百度收录量和流量的下降。