美文网首页Python爬虫作业
2017/4/29 豆瓣读书

2017/4/29 豆瓣读书

作者: Carpe | 来源:发表于2017-04-29 21:30 被阅读49次

作业思路

这次只爬取了一个经济学这个标签下的所有书
思路和之前的差不多,不过有一点区别的就是分页的url以及豆瓣的反爬策略

分页URL

https://book.douban.com/tag/%E7%BB%8F%E6%B5%8E%E5%AD%A6?start=20&type=T
这个20代表第二页,也代表这一页有多少本书,那么有多少页呢?

在上面所列的最后一页

所以,就手动的根据二分法的思维找了一下,发现一共有49页

豆瓣反爬策略

本次爬取中,一共试用了之前所列的三种策略

不作任何反反爬

没有做任何的伪装,用scrapy框架,一会就被禁止了

随机UA和下载延迟

这个策略顺利地爬下了所有的数据,这次爬取设置的延迟是3秒,关于设置几秒最佳,这个还没有测试

代理IP

不知道是因为所选用的代理IP太差了还是豆瓣已经检测出是代理IP的原因,始终会出现计算机积极拒绝,所以这个方式还是不太可行。

作业结果

作业结果

作业代码

这次所选用的依旧是scrapy框架并保存在mysql中,因为想要爬取一下这本书的标签,所以是两层深度。
作业代码和之前的差不多,就不上了哈

相关文章

网友评论

    本文标题:2017/4/29 豆瓣读书

    本文链接:https://www.haomeiwen.com/subject/qxkttxtx.html