美文网首页Python数据采集与爬虫ScrapyPython 爬虫专栏
scrapy微信文章爬虫,加入中间件代理池

scrapy微信文章爬虫,加入中间件代理池

作者: 蜗牛仔 | 来源:发表于2017-04-12 16:37 被阅读654次

    微信文章查询这个网站布局相对简单,提取信息不难,但是反爬比较厉害,分分钟ban掉你IP没话说,今天写了个scrapy中间件,github地址是:
    https://github.com/xiaobeibei26/weixin_spider
    先看这个网站


    很多信息直接在源代码里面
    接着,看看我们的大杀器中间件,主要是加入了代理池和user-agent,首先看看文件的结构

    Paste_Image.png

    这里看看中间件的代码,很短的,如图


    Paste_Image.png

    封装的数据库代理池代码也很短

    Paste_Image.png

    这里你可以自己添加ip进去,也可以链接自己数据库的IP池,这次我自己数据库的IP数量很少,而且这个网站貌似识别能力很高,一般的代理搞不掂
    然后记得在settings里面调用这个中间件,很简单,如图

    Paste_Image.png

    最后楼主就爬了几页数据,很多代理我之前测试都没有问题,访问这个网站就不行了,看来要大规模爬虫,对于代理的质量有非常高的要求啊,如图这是运行结果

    Paste_Image.png Paste_Image.png

    看来只能等以后把代理池扩充一下再爬了

    相关文章

      本文标题:scrapy微信文章爬虫,加入中间件代理池

      本文链接:https://www.haomeiwen.com/subject/efmmattx.html