Scrapy是Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。## ## Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试
既然Scrapy是基于Python开发的,那么想耍Scrapy自然少不了Python开发环境,如何安装Python开发环境?不教!!
Python开发环境安装成功之后,检查一下版本

Python开发环境中带有pip 和 pip3,为啥要提pip3,因为安装Scrapy需要通过pip3工具

安装 Scrapy

至此Scrapy 安装成功
Scrapy创建爬虫项目

通过PyCharm打开项目,目录结构如下

创建spiders目录下的爬虫文件,首先切换到spiders目录下

scrapy genspider 应用名称 爬取网页的起始url
创建 demo.py 爬虫文件后,目录结构如下

启动爬虫

特别说明:
如果你的命令行窗口没有打印出如上结果原因在这里:setting.py # ROBOTSTXT_OBEY = False
接下来就该四步走了
第1步:编写items.py (设置数据存储模板,定义数据属性)
第2步:编写spiders下的 demo.py 文件 (编写爬虫解析规则)
第3步:编写pipelines.py文件 (管道文件。接收数据(items),进行持久化操作,爬虫文件爬取到数据后,需要将数据封装到
items对象中。使用yield关键字将items对象提交给pipelines管道进行持久化操作。settings.py配置文件中开启管道)
第4步:打开settings.py 文件更改配置 (配置文件,如:递归的层数、并发数,延迟下载等)
网友评论