美文网首页大数据 爬虫Python AI Sqlpython入门基础学习
Python scrapy框架用21行代码写出一个爬虫(内附赠p

Python scrapy框架用21行代码写出一个爬虫(内附赠p

作者: 编程新视野 | 来源:发表于2019-03-18 20:46 被阅读1次

    目标

    爬取线报网站,并把内容保存到items.json里

    页面分析

    根据上图我们可以发现内容都在类为post这个div里

    下面放出post的代码

    实现方法

    1.定义items

    2.新建一个爬虫名为test

    修改settings.py,添加以下代码

    FEED_EXPORT_ENCODING = 'utf-8'

    运行

    打开cmd输入

    scrapy crawl test -o items.json

    可拓展内容

    1.定时运行爬虫,当检查到网站更新时获取新数据并发邮件通知

    2.检测数据是否重复

    最后

    注:想学习Python的小伙伴们

    进群:984632579

    领取从0到1完整学习资料 视频 源码 精品书籍 一个月经典笔记和99道练习题及答案

    相关文章

      网友评论

        本文标题:Python scrapy框架用21行代码写出一个爬虫(内附赠p

        本文链接:https://www.haomeiwen.com/subject/qkcimqtx.html