美文网首页python 高级码农成才之路
scrapy爬虫---爬取阳光政务平台文章和入库

scrapy爬虫---爬取阳光政务平台文章和入库

作者: 幼姿沫 | 来源:发表于2020-12-29 17:09 被阅读0次

    用普通爬虫实现爬取阳光政务平台首页政务的标题和链接  并且对具体政务信息进行提取以下为具体字段

    title (问政标题)/ href (问政链接) /author 作者名称/ author_img 作者图片  / publish_date 发布日期/ content 内容/ content_img 内容图片 /department(问政部门)

    网址:http://wzzdg.sun0769.com/political/index/index

    由于问政详情页面有图片和内容 有的有内容无图片  以下进行分析

    1.网页分析:

    首页分析

    有内容无图片页面

    有内容有图片页面分析

    文件架构

    2.代码截图分析

    ygzw.py       ---------        爬虫页面

    start.py 启动爬虫页面


    settings.py  配置页面

    items.py    设置爬取网页的数据预设

    pipelines.py  对数据进行保存文件


    项目展示结果:

    mongodb数据库展示

    控制台输出信息展示

    相关文章

      网友评论

        本文标题:scrapy爬虫---爬取阳光政务平台文章和入库

        本文链接:https://www.haomeiwen.com/subject/sqfqoktx.html