分布式爬虫scrapy-redis来爬取房天下的各个省份的房源信息(新房和二手房房源信息)
newhouse.json/esf.json 并且保存到redis数据库
文件结构
sfw.py 搜房网爬虫页面
新房房源
二手房房源
items.py 预设网页上的爬取的数据字段
pipelines.py 将数据进行保存页面
middlewares.py 中间件页面
settings.py配置信息
start.py 启动爬虫页面
esf.json 存放二手房信息的文件
newhouse.json 存放新房房源信息
控制台展示运行之后进行保存
在redis数据库中查找数据
网友评论