美文网首页初见
MJ12bot蜘蛛爬取怎么屏蔽?

MJ12bot蜘蛛爬取怎么屏蔽?

作者: 星空期盼 | 来源:发表于2020-05-15 09:54 被阅读0次

    这两天在检查蜘蛛爬取记录的时候,发现了MJ12bot这个蜘蛛。

    要是随便爬爬我也就认了,关键是这个爬虫爬起来太疯狂。

    几分钟几十分钟之内爬我几十上百次。

    是可忍孰不可忍,我决定对它下手。

    可是又不敢下手,生怕这是国内按个搜索引擎的爬虫,万一不小心把它给封了不久不太好了。

    在网上查了下,这个蜘蛛是国外的一个站长工具,就类似于我们在国内使用的5118、站长之家之类的,主要针对的用户是国外。

    那我还怕个鬼呀,说封就封。((本文由咸鱼成长记www.xianyublog.com原创,转载请注明出处。))

    虽然第一次终究是因为没有找到wordpress模板中的robots.txt文件而告终,但是当我再次看到这个爬虫疯狂爬取的时候,更坚定了要封掉它的原因。

    原来wordpress模板中的robots.txt文件是虚拟的,也就是我们能够访问,但是在网站根目录下是找不到的。

    为了解决这个问题,找到了一款wordpress插件,叫 Robots.txt编辑器 ,直接在网站后台输入查找,在搜索得到的结果中安装启用。

    然后在robots.txt文件里网站地图上方加这么一句话就行了,像上图那样。

    具体的原理比较复杂,应该是位置越靠前的范围并被当做位置靠后的命令的基础,也就是包含与被包含的关系。这么写就行了,如果想要探究蜘蛛应该怎么写的话,搜一搜教程,应该会有很多。

    禁止MJ12bot爬虫爬取以后,这个家伙隔一会就访问一下robots.txt,想看看是不是可以爬取了。

    简直太天真了。

    先封它一段时间,等以后有机会再把它从小黑屋里放出来吧。

    而且,这种方法在我们屏蔽搜索引擎蜘蛛爬取动态链接的时候也很有帮助。

    在对网站内容进行伪静态设置后,由于蜘蛛同时抓取了静态链接和动态链接,有可能对造成收录重复页面的情况,对网站SEO不利。

    这个时候,我们就可以在robots.txt协议中加一些限制,禁止搜索引擎抓取动态链接,将重复收录的问题解决。

    需要注意的一点是,如果在robots协议中添加了禁止抓取或者允许抓取的文件或范围的话,最好在百度站长平台里验证一下,这样就可以让百度蜘蛛知道什么事儿能干,什么事儿不能干了。

    更多关于网站运营、抖音运营、网上赚钱教程的精彩内容,请百度 咸鱼成长记 进行查看,希望能对您有所帮助。

    相关文章

      网友评论

        本文标题:MJ12bot蜘蛛爬取怎么屏蔽?

        本文链接:https://www.haomeiwen.com/subject/tkvqohtx.html