2017/4/29 豆瓣读书

作者: Carpe | 来源:发表于2017-04-29 21:30 被阅读49次

2017/4/29 豆瓣读书
《帝一之国》又称帝一帝国
豆瓣2017年度商业·经管类图书TOP10|看过才知道，这一年错
化身孤岛的蓝鲸
读《新世界 - 灵性的觉醒》
【02】十五每周打卡【9/25/2017-9/29/2017】
无标题文章
2017/4/29
2017/4/29
2017年/第7本--《进击的局座：悄悄话》阅读笔记

作业思路

这次只爬取了一个经济学这个标签下的所有书
思路和之前的差不多，不过有一点区别的就是分页的url以及豆瓣的反爬策略

分页URL

https://book.douban.com/tag/%E7%BB%8F%E6%B5%8E%E5%AD%A6?start=20&type=T
这个20代表第二页，也代表这一页有多少本书，那么有多少页呢？

在上面所列的最后一页

所以，就手动的根据二分法的思维找了一下，发现一共有49页

豆瓣反爬策略

本次爬取中，一共试用了之前所列的三种策略

不作任何反反爬

没有做任何的伪装，用scrapy框架，一会就被禁止了

随机UA和下载延迟

这个策略顺利地爬下了所有的数据，这次爬取设置的延迟是3秒，关于设置几秒最佳，这个还没有测试

代理IP

不知道是因为所选用的代理IP太差了还是豆瓣已经检测出是代理IP的原因，始终会出现计算机积极拒绝，所以这个方式还是不太可行。

作业结果

作业代码

这次所选用的依旧是scrapy框架并保存在mysql中，因为想要爬取一下这本书的标签，所以是两层深度。
作业代码和之前的差不多，就不上了哈

网友评论

Python爬虫作业

本文标题：2017/4/29 豆瓣读书

本文链接：https://www.haomeiwen.com/subject/qxkttxtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

2017/4/29 豆瓣读书

作业思路

分页URL

豆瓣反爬策略

不作任何反反爬

随机UA和下载延迟

代理IP

作业结果

作业代码

相关文章

2017/4/29 豆瓣读书

《帝一之国》又称帝一帝国

豆瓣2017年度商业·经管类图书TOP10|看过才知道，这一年错

化身孤岛的蓝鲸

读《新世界 - 灵性的觉醒》

【02】十五每周打卡【9/25/2017-9/29/2017】

无标题文章

2017/4/29

2017/4/29

2017年/第7本--《进击的局座：悄悄话》阅读笔记

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

Python爬虫作业