在多次踩坑后,终于写好我的爬虫了,简直要哭晕在厕所了。
小白遇到的问题:
第一就是在scrapy框架里设置随机请求头中间件
第二也是中间件,代理中间件,关于这两点可以参考我的博客:
这两个问题真的困扰了我超级久啊。
解决好这两个问题好,我的爬虫终于运行起来啦啦啦
贴一下我的部分代码,嘿嘿嘿
目录
文件夹结构
taobao.py
重写 start_requests() 方法
parse()方法 解析商品信息
items.py
你要存储的字段
middlewares.py
爬取一段数据后会出现验证码,所以采用了更换ip的方式
随机请求头 UserAgentMiddleware
代理 ProxyMiddleware
记得要把proxy_url换成你自己的API哦
下载中间件settings.py
配置文件 一定要开启啊pipelines.py
存储数据到Mongodb
存储数据run.py
最后就可以运行啦,执行命令 python run.py
运行完是这样的哈哈哈
Mongodb数据
网友评论