美文网首页
豆瓣反爬策略的坑

豆瓣反爬策略的坑

作者: spencer404 | 来源:发表于2016-08-19 10:03 被阅读1436次

    方案(一)

    不停变换user-agent, 但很快就被封了.

    方案(二)

    使用浏览器访问豆瓣, 将cookies拷贝下来交给爬虫使用, 不过也就大概一分钟左右, 这个cookies就被封掉了, 而且换IP也没法.

    方案(三)

    利用requests库自带的session, 用一个新的session去访问豆瓣, 这样豆瓣会颁发一个cookies, 带着这个cookies(requests库自动管理cookies)去访问豆瓣, 一段时间后, 这个session会被豆瓣封掉, 这时换一个新的session就行了.
    不过, 还是被封了, 猜测是豆瓣检测到这个IP有太多的新用户, 不再为新的用户颁发cookies了

    方案(四)

    分析出cookies的规律, 自己伪造, 豆瓣居然没检查, 爬完收工.
    战果很丰富! (__)

    相关文章

      网友评论

          本文标题:豆瓣反爬策略的坑

          本文链接:https://www.haomeiwen.com/subject/jeqlhttx.html