作业思路
这次只爬取了一个经济学这个标签下的所有书
思路和之前的差不多,不过有一点区别的就是分页的url以及豆瓣的反爬策略
分页URL
https://book.douban.com/tag/%E7%BB%8F%E6%B5%8E%E5%AD%A6?start=20&type=T
这个20代表第二页,也代表这一页有多少本书,那么有多少页呢?
所以,就手动的根据二分法的思维找了一下,发现一共有49页
豆瓣反爬策略
本次爬取中,一共试用了之前所列的三种策略
不作任何反反爬
没有做任何的伪装,用scrapy框架,一会就被禁止了
随机UA和下载延迟
这个策略顺利地爬下了所有的数据,这次爬取设置的延迟是3秒,关于设置几秒最佳,这个还没有测试
代理IP
不知道是因为所选用的代理IP太差了还是豆瓣已经检测出是代理IP的原因,始终会出现计算机积极拒绝,所以这个方式还是不太可行。
作业结果
作业结果作业代码
这次所选用的依旧是scrapy框架并保存在mysql中,因为想要爬取一下这本书的标签,所以是两层深度。
作业代码和之前的差不多,就不上了哈
网友评论