MJ12bot蜘蛛爬取怎么屏蔽？

作者: 星空期盼 | 来源:发表于2020-05-15 09:54 被阅读0次

这两天在检查蜘蛛爬取记录的时候，发现了MJ12bot这个蜘蛛。

要是随便爬爬我也就认了，关键是这个爬虫爬起来太疯狂。

几分钟几十分钟之内爬我几十上百次。

是可忍孰不可忍，我决定对它下手。

可是又不敢下手，生怕这是国内按个搜索引擎的爬虫，万一不小心把它给封了不久不太好了。

在网上查了下，这个蜘蛛是国外的一个站长工具，就类似于我们在国内使用的5118、站长之家之类的，主要针对的用户是国外。

那我还怕个鬼呀，说封就封。（（本文由咸鱼成长记www.xianyublog.com原创，转载请注明出处。））

虽然第一次终究是因为没有找到wordpress模板中的robots.txt文件而告终，但是当我再次看到这个爬虫疯狂爬取的时候，更坚定了要封掉它的原因。

原来wordpress模板中的robots.txt文件是虚拟的，也就是我们能够访问，但是在网站根目录下是找不到的。

为了解决这个问题，找到了一款wordpress插件，叫 Robots.txt编辑器，直接在网站后台输入查找，在搜索得到的结果中安装启用。

然后在robots.txt文件里网站地图上方加这么一句话就行了，像上图那样。

具体的原理比较复杂，应该是位置越靠前的范围并被当做位置靠后的命令的基础，也就是包含与被包含的关系。这么写就行了，如果想要探究蜘蛛应该怎么写的话，搜一搜教程，应该会有很多。

禁止MJ12bot爬虫爬取以后，这个家伙隔一会就访问一下robots.txt，想看看是不是可以爬取了。

简直太天真了。

先封它一段时间，等以后有机会再把它从小黑屋里放出来吧。

而且，这种方法在我们屏蔽搜索引擎蜘蛛爬取动态链接的时候也很有帮助。

在对网站内容进行伪静态设置后，由于蜘蛛同时抓取了静态链接和动态链接，有可能对造成收录重复页面的情况，对网站SEO不利。

这个时候，我们就可以在robots.txt协议中加一些限制，禁止搜索引擎抓取动态链接，将重复收录的问题解决。

需要注意的一点是，如果在robots协议中添加了禁止抓取或者允许抓取的文件或范围的话，最好在百度站长平台里验证一下，这样就可以让百度蜘蛛知道什么事儿能干，什么事儿不能干了。

更多关于网站运营、抖音运营、网上赚钱教程的精彩内容，请百度咸鱼成长记进行查看，希望能对您有所帮助。

网友评论

本文标题：MJ12bot蜘蛛爬取怎么屏蔽？

本文链接：https://www.haomeiwen.com/subject/tkvqohtx.html

MJ12bot蜘蛛爬取怎么屏蔽？