美文网首页Java Web架构设计WordPress博客PHP经验分享
解除WordPress Robots封禁问题以及robots.t

解除WordPress Robots封禁问题以及robots.t

作者: Arison | 来源:发表于2019-01-04 16:52 被阅读2次

问题产生

百度站点管理-抓取诊断失败

百度站点管理地址:https://ziyuan.baidu.com/site/index

在百度站点管理的时候,点击抓取诊断遇到抓取失败的情况,要知道,抓取失败,意味着你的网站百度没办法收录,这是很严重的事情,必须马上找到问题,然后解决它。

blob.jpg

点开抓取失败的红色标志,查看具体异常详情。发现是Robots封禁

blob.jpg

什么是Robots封禁?

robots是网站跟爬虫间的协议,用简单直接的txt格式文本方式告诉对应的爬虫被允许的权限,也就是说robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。详情以及语法请看 百度百科-robots

问题排查

查看百度平台工具使用帮助文档

https://ziyuan.baidu.com/college/courseinfo?id=267&page=9#004

【robots封禁问题】
在抓取诊断工具中如果返回的抓取失败结论是robots封禁,请确认您是否对该网址设置了robots,阻止百度spider抓取网站的某些内容,如果您未使用robots文件屏蔽百度,请点击旁边的报错链接,百度会立即更新您站点的robots信息;如果是您的误操作导致了封禁,请及时修改robots文件,避免造成您的网站在百度收录量和流量的下降。

经过帮助文档的说明,我定位到了是网站程序封禁了,导致百度无法抓取。

定位程序问题

马上FinalShell远程连接Linux服务器

find / -name robots.txt

这行命令是查找robots.txt文件的位置

blob.jpg

找到文件路径之后,直接vim 来修改robots.txt文件的内容。
通过访问域名根路径来看robots.txt文件的内容。
http://cloud.yundashi168.com/robots.txt

把robots.txt文件设置成允许百度抓取之后,发现没有得到我们想要的结果,这是怎么回事?

我重启服务器和更新域名映射都没有效果,百度那边还是抓取失败,依旧是包robots抓取异常。
我更改的文件竟然没有效果,很纳闷。

冷静之后,发现了问题所在。
由于我用的wordpress程序,所有我在wordpress后台管理界面找到了解决方法

blob.jpg

把建议搜索引擎不索引本站点这个选项,设置成 不要勾选。

然后再次访问:http://cloud.yundashi168.com/robots.txt 发现问题得到了解决

百度站点管理界面再次 检测并更新。问题得到解决了。

blob.jpg

问题解决

问题得到完美解决,现在也感慨网站建站事情细节问题真不少,需要慢慢学习和实践。现在百度蜘蛛能进入你的网站了。下一步,我们要做到网站能自动推送提交链接给百度,因为手动太麻烦了。
http://cloud.yundashi168.com/robots.txt

原文出处:http://cloud.yundashi168.com/archives/165

相关文章

网友评论

    本文标题:解除WordPress Robots封禁问题以及robots.t

    本文链接:https://www.haomeiwen.com/subject/dodkrqtx.html