方案(一)
不停变换user-agent, 但很快就被封了.
方案(二)
使用浏览器访问豆瓣, 将cookies拷贝下来交给爬虫使用, 不过也就大概一分钟左右, 这个cookies就被封掉了, 而且换IP也没法.
方案(三)
利用requests库自带的session, 用一个新的session去访问豆瓣, 这样豆瓣会颁发一个cookies, 带着这个cookies(requests库自动管理cookies)去访问豆瓣, 一段时间后, 这个session会被豆瓣封掉, 这时换一个新的session就行了.
不过, 还是被封了, 猜测是豆瓣检测到这个IP有太多的新用户, 不再为新的用户颁发cookies了
方案(四)
分析出cookies的规律, 自己伪造, 豆瓣居然没检查, 爬完收工.
战果很丰富! (__)
网友评论