美文网首页
scrapy 框架爬取某宝某商品信息

scrapy 框架爬取某宝某商品信息

作者: Awake_d5cb | 来源:发表于2019-04-13 16:20 被阅读0次

    在多次踩坑后,终于写好我的爬虫了,简直要哭晕在厕所了。

    小白遇到的问题:

    第一就是在scrapy框架里设置随机请求头中间件

    第二也是中间件,代理中间件,关于这两点可以参考我的博客:

    爬虫设置随机请求头和代理

    这两个问题真的困扰了我超级久啊。

    解决好这两个问题好,我的爬虫终于运行起来啦啦啦

    贴一下我的部分代码,嘿嘿嘿

    目录

    文件夹结构

    taobao.py

    重写 start_requests() 方法

    parse()方法 解析商品信息

    items.py

    你要存储的字段

    middlewares.py

    爬取一段数据后会出现验证码,所以采用了更换ip的方式

    随机请求头 UserAgentMiddleware

    代理 ProxyMiddleware

    记得要把proxy_url换成你自己的API哦

    下载中间件

    settings.py

    配置文件 一定要开启啊

    pipelines.py

    存储数据到Mongodb

    存储数据

    run.py

    最后就可以运行啦,执行命令 python run.py

    运行完是这样的哈哈哈

    Mongodb数据

    代码地址:https://github.com/Awake2714/Taobao

    相关文章

      网友评论

          本文标题:scrapy 框架爬取某宝某商品信息

          本文链接:https://www.haomeiwen.com/subject/cxfrwqtx.html