美文网首页
豆瓣反爬策略的坑

豆瓣反爬策略的坑

作者: spencer404 | 来源:发表于2016-08-19 10:03 被阅读1436次

方案(一)

不停变换user-agent, 但很快就被封了.

方案(二)

使用浏览器访问豆瓣, 将cookies拷贝下来交给爬虫使用, 不过也就大概一分钟左右, 这个cookies就被封掉了, 而且换IP也没法.

方案(三)

利用requests库自带的session, 用一个新的session去访问豆瓣, 这样豆瓣会颁发一个cookies, 带着这个cookies(requests库自动管理cookies)去访问豆瓣, 一段时间后, 这个session会被豆瓣封掉, 这时换一个新的session就行了.
不过, 还是被封了, 猜测是豆瓣检测到这个IP有太多的新用户, 不再为新的用户颁发cookies了

方案(四)

分析出cookies的规律, 自己伪造, 豆瓣居然没检查, 爬完收工.
战果很丰富! (__)

相关文章

网友评论

      本文标题:豆瓣反爬策略的坑

      本文链接:https://www.haomeiwen.com/subject/jeqlhttx.html