目标
爬取线报网站,并把内容保存到items.json里
页面分析
根据上图我们可以发现内容都在类为post这个div里
下面放出post的代码
实现方法
1.定义items
2.新建一个爬虫名为test
修改settings.py,添加以下代码
FEED_EXPORT_ENCODING = 'utf-8'
运行
打开cmd输入
scrapy crawl test -o items.json
可拓展内容
1.定时运行爬虫,当检查到网站更新时获取新数据并发邮件通知
2.检测数据是否重复
最后
注:想学习Python的小伙伴们
进群:984632579
领取从0到1完整学习资料 视频 源码 精品书籍 一个月经典笔记和99道练习题及答案
网友评论