美文网首页
scrapy 框架爬取某宝某商品信息

scrapy 框架爬取某宝某商品信息

作者: Awake_d5cb | 来源:发表于2019-04-13 16:20 被阅读0次

在多次踩坑后,终于写好我的爬虫了,简直要哭晕在厕所了。

小白遇到的问题:

第一就是在scrapy框架里设置随机请求头中间件

第二也是中间件,代理中间件,关于这两点可以参考我的博客:

爬虫设置随机请求头和代理

这两个问题真的困扰了我超级久啊。

解决好这两个问题好,我的爬虫终于运行起来啦啦啦

贴一下我的部分代码,嘿嘿嘿

目录

文件夹结构

taobao.py

重写 start_requests() 方法

parse()方法 解析商品信息

items.py

你要存储的字段

middlewares.py

爬取一段数据后会出现验证码,所以采用了更换ip的方式

随机请求头 UserAgentMiddleware

代理 ProxyMiddleware

记得要把proxy_url换成你自己的API哦

下载中间件

settings.py

配置文件 一定要开启啊

pipelines.py

存储数据到Mongodb

存储数据

run.py

最后就可以运行啦,执行命令 python run.py

运行完是这样的哈哈哈

Mongodb数据

代码地址:https://github.com/Awake2714/Taobao

相关文章

网友评论

      本文标题:scrapy 框架爬取某宝某商品信息

      本文链接:https://www.haomeiwen.com/subject/cxfrwqtx.html