美文网首页Python爬虫作业
2017/4/29 豆瓣读书

2017/4/29 豆瓣读书

作者: Carpe | 来源:发表于2017-04-29 21:30 被阅读49次

    作业思路

    这次只爬取了一个经济学这个标签下的所有书
    思路和之前的差不多,不过有一点区别的就是分页的url以及豆瓣的反爬策略

    分页URL

    https://book.douban.com/tag/%E7%BB%8F%E6%B5%8E%E5%AD%A6?start=20&type=T
    这个20代表第二页,也代表这一页有多少本书,那么有多少页呢?

    在上面所列的最后一页

    所以,就手动的根据二分法的思维找了一下,发现一共有49页

    豆瓣反爬策略

    本次爬取中,一共试用了之前所列的三种策略

    不作任何反反爬

    没有做任何的伪装,用scrapy框架,一会就被禁止了

    随机UA和下载延迟

    这个策略顺利地爬下了所有的数据,这次爬取设置的延迟是3秒,关于设置几秒最佳,这个还没有测试

    代理IP

    不知道是因为所选用的代理IP太差了还是豆瓣已经检测出是代理IP的原因,始终会出现计算机积极拒绝,所以这个方式还是不太可行。

    作业结果

    作业结果

    作业代码

    这次所选用的依旧是scrapy框架并保存在mysql中,因为想要爬取一下这本书的标签,所以是两层深度。
    作业代码和之前的差不多,就不上了哈

    相关文章

      网友评论

        本文标题:2017/4/29 豆瓣读书

        本文链接:https://www.haomeiwen.com/subject/qxkttxtx.html