美文网首页
反爬虫策略

反爬虫策略

作者: jackben | 来源:发表于2020-03-06 14:15 被阅读0次

最近在做爬虫相关的作业, 发现一些网站有反爬虫策略。 反爬虫策略说白了就是要检测你是不是机器人。 

那问题来了, 如何伪装成普通的用户反问呢?

构造合理的http请求头

如把user-agent 设置成一大串 ,设置合理的Accpet 和 Accept-Language

"'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537.36',"

'Accept':'image/webp,image/apng,image/*,*/*;q=0.8'

'Accept-Language':'zh-CN,zh;q=0.9,en;q=0.8'

合理的访问时间间隔

机器人1秒就可以爬上千个链接, 通常很容易就被识别, 所以要合理的sleep, 让时间间隔变成 1-3秒来访问网页。 

参考:

https://www.cnblogs.com/junrong624/p/5533655.html

相关文章

  • 反爬虫到底是怎么一回事?

    爬虫与反爬虫永远是相生相克的:当爬虫知道了反爬策略就可以制定反-反爬策略,同样地,网站知道了爬虫的反-反爬策略就可...

  • 常见的反爬虫和应对方法

    通过Headers 反爬虫: 从用户请求的Headers 反爬虫是最常见的反爬虫策略。很多网站都会对Headers...

  • 反爬虫策略

    最近在做爬虫相关的作业, 发现一些网站有反爬虫策略。 反爬虫策略说白了就是要检测你是不是机器人。 那问题来了, 如...

  • 抖音爬虫教程,python爬虫采集反爬策略

    抖音爬虫教程,python爬虫采集反爬策略一、爬虫与反爬简介爬虫就是我们利用某种程序代替人工批量读取、获取网站上的...

  • css反爬解析

    一、概述 有爬虫,就一定会有反爬虫,也因此一定会有反-反爬虫,双方就是在不断变换策略,但是,只要是是使用代码...

  • 反爬虫策略

    搜寻了大多数资料,反爬虫策略只是为了让爬虫更复杂,更麻烦,目前貌似没有能一劳永逸的方案。 以下的策略只是增加爬虫的...

  • 反爬虫策略

    这篇文章是对上篇的一个实现。虽然已经破解了它再去实现有点不开心。但作为防止学生暴力的爬页面也比较足够了。 需求 在...

  • 反爬虫策略

    常见的反爬虫策略总结 检查访问中的user-agent 检查同一IP的访问频率 对特定的高频操作进行二维码验证 对...

  • (二)爬虫框架(5)——scrapy下载中间件

    在写爬虫的时候,经常会遇到一个难题,就是反爬虫。反爬虫策略一般就是检测user-agent,IP等等信息,辨别是机...

  • 反反爬虫之js加密参数获取

    反爬虫与反反爬虫从爬虫诞生开始就已经存在,反爬策略层出不穷,反反爬也都应对有招。 就我目前碰到的反爬,从简单的us...

网友评论

      本文标题:反爬虫策略

      本文链接:https://www.haomeiwen.com/subject/ewhirhtx.html