美文网首页
scrapy爬虫技术快速入门

scrapy爬虫技术快速入门

作者: 催化剂 | 来源:发表于2020-01-15 11:40 被阅读0次

https://baijiahao.baidu.com/s?id=1621695863688073415&wfr=spider&for=pc

https://www.cnblogs.com/3wtoucan/p/scrapy-installation.html

traffic-health-data-spider

中国主要城市交通健康数据爬虫

使用Scrapy抓取交通健康数据

制作Scrapy爬虫一共需要四步

1.新建项目 :新建一个新的爬虫项目

1.1创建目录amap_traffic_health

1.2创建项目scrapy startproject amap_traffic_health

1.3目录结构

|-amap_traffic_health

  |-scrapy.cfg

  |-amap_traffic_health

    |-__init__.py

    |-items.py

    |-middlewares.py

    |-pipelines.py

    |-settings.py

    |-spiders

        |-__init__.py

1.4文件功能

scrapy.cfg:配置文件

spiders:存放Spider文件

items.py:相当于一个容器,和字典较像

middlewares.py:定义Downloader Middlewares(下载器中间件)和Spider Middlewares(蜘蛛中间件)的实现

pipelines.py:定义Item Pipeline的实现,实现数据的清洗,储存,验证。

settings.py:全局配置

2.明确目标 (编写items.py):明确你想要抓取的目标

3.制作爬虫 (spiders/xxspider.py):制作爬虫开始爬取网页

4.存储内容 (pipelines.py):设计管道存储爬取内容

相关文章

网友评论

      本文标题:scrapy爬虫技术快速入门

      本文链接:https://www.haomeiwen.com/subject/ejhtzctx.html