美文网首页dotNET.NET
IIS屏蔽搜索引擎爬虫

IIS屏蔽搜索引擎爬虫

作者: Haloom | 来源:发表于2020-03-08 22:13 被阅读0次

事情的起源,还是来自于站点的日志系统,发现了很多莫名的异常报错,领导要求排查减少日志上的错误数量。检查发现请求的地址是业务地址,但是没有带用户授权标识上来, 一般正常的用户不会发生这种情况呀。 再细致一检查,这类异常请求的ua 都带有 bot、spider 诸如 baidu.com/search/spider ,www.similartech.com/smtbot,http://www.bing.com/bingbot.htm  等等   那么说明这些都为搜索引擎的机器人爬虫

这是回想我们设置在站点下放的防采集文件,robots文件,里面已经有配置很多禁止采集的设置了,使用站长工具生成的robots文件格式也很标准。哎仔细一查,很多搜索引擎都不按禁止采集规则走都直接进行请求,机器人是不会带我们客户的登陆标识的,直接请求我们业务地址导致的业务执行错误。

综上,最好的解决方案  我们按照客户端请求的ua User-Agent 进行拦截, 凡是ua中带有bot  spider字样出现的,先都统统屏蔽了。 虽然有可能误杀某个浏览器的ua就是有带bot, 但现在是基于系统中的日志来看是没有的

这里我们的服务器是iis  要用到一个iis重写功能 iisrewrite  

添加规则,针其中针对符合条件规则的请求进行阻止

这里我们选择请求用户代理标头  也就是用户请求的ua User-Agent 使用正则表达式进行匹配

点击确定,即可完成   这是我们用postman对网站设置进行一个检验:当Ua是正常浏览器的时候  返回的是正确的信息

当ua中含有搜索引擎相关的标头出现的时候, 请求即被拦截 

相关文章

  • IIS屏蔽搜索引擎爬虫

    事情的起源,还是来自于站点的日志系统,发现了很多莫名的异常报错,领导要求排查减少日志上的错误数量。检查发现请求的地...

  • 搜索引擎工作原理解析

    本篇文章从整个搜索引擎架构技术大框架方面来学习,搜索引擎工作原理。 1 搜索引擎基本模块 2 爬虫 网络爬虫(We...

  • 爬虫-原理和流程

    爬虫原理 模拟浏览器发送网络请求,接收请求响应 爬虫分类 通用爬虫:搜索引擎的爬虫聚焦爬虫:针对特定网站的爬虫积累...

  • 爬虫工具集和

    爬虫,即网络爬虫,是一种自动获取网页内容的程序。是搜索引擎的重要组成部分,因此搜索引擎优化很大程度上就是针对爬虫而...

  • 什么是网络爬虫,为什么选择Python做网络爬虫?

    什么是网络爬虫? 网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫...

  • 为什么要用Python写网络爬虫?而不用其他的编程语言呢?

    什么是网络爬虫? 网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫...

  • Scrapy

    0. 基础知识: 1) 搜索引擎爬虫介绍 --> 增量式爬虫和分布式爬虫 http://www.zouxiaoya...

  • 爬虫分类

    通用爬虫 和 聚焦爬虫 两种 通用网络爬虫:主要用于大型搜索引擎 比如用户在百度搜索引擎上检索对应关键词时,百度将...

  • python进阶三:爬虫

    1.爬虫简介 1.1爬虫分类 1.1.1通用爬虫 通用搜索引擎(Search Engine)工作原理step1:抓...

  • 做爬虫,不了解这些基本等于白做

    爬虫原理 Web网络爬虫系统的功能是下载网页数据,为搜索引擎系统提供数据来源。很多大型的网络搜索引擎系统都被称为基...

网友评论

    本文标题:IIS屏蔽搜索引擎爬虫

    本文链接:https://www.haomeiwen.com/subject/lpskrhtx.html