在多次踩坑后,终于写好我的爬虫了,简直要哭晕在厕所了。
小白遇到的问题:
第一就是在scrapy框架里设置随机请求头中间件
第二也是中间件,代理中间件,关于这两点可以参考我的博客:
这两个问题真的困扰了我超级久啊。
解决好这两个问题好,我的爬虫终于运行起来啦啦啦

贴一下我的部分代码,嘿嘿嘿
目录
文件夹结构

taobao.py
重写 start_requests() 方法
parse()方法 解析商品信息

items.py
你要存储的字段

middlewares.py
爬取一段数据后会出现验证码,所以采用了更换ip的方式
随机请求头 UserAgentMiddleware
代理 ProxyMiddleware
记得要把proxy_url换成你自己的API哦

settings.py


pipelines.py
存储数据到Mongodb

run.py

最后就可以运行啦,执行命令 python run.py
运行完是这样的哈哈哈

网友评论