最近在做爬虫相关的作业, 发现一些网站有反爬虫策略。 反爬虫策略说白了就是要检测你是不是机器人。
那问题来了, 如何伪装成普通的用户反问呢?
构造合理的http请求头
如把user-agent 设置成一大串 ,设置合理的Accpet 和 Accept-Language
"'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537.36',"
'Accept':'image/webp,image/apng,image/*,*/*;q=0.8'
'Accept-Language':'zh-CN,zh;q=0.9,en;q=0.8'
合理的访问时间间隔
机器人1秒就可以爬上千个链接, 通常很容易就被识别, 所以要合理的sleep, 让时间间隔变成 1-3秒来访问网页。
网友评论