认识Scrapy项目的目录结构:
- 首先,生成一个与爬虫项目名称同名的文件夹,该文件夹下拥有一个同名子文件夹(可以理解为项目核心目录)和一个
scrapy.cfg
文件; - 该同名子文件夹下放置的是爬虫项目的核心代码,
scrapy.cfg
文件主要是爬虫项目的配置文件; - 核心代码包括:一个
spider
文件夹,以及__init__.py
、items.py
、pipelines.py
、settings.py
等Python文件; -
__init__.py
为初始化文件,主要是写项目的初始化信息; -
items.py
文件为爬虫项目的数据容器文件,主要用来定义我们要获取的数据; -
pipelines.py
文件为爬虫项目的管道文件,主要用来对items里面定义的数据进行进一步的加工处理; -
settings.py
文件为爬虫项目的设置文件,主要为爬虫项目的一些设置信息; - spider文件夹下放置的是爬虫项目中的爬虫部分相关的文件:
spider/__init__.py
文件为爬虫项目中爬虫部分的初始化文件,主要对spider
进行初始化;
用Scrapy进行爬虫项目管理:
- 终端进入相应文件夹下后输入:
scrapy startproject project_name
创建项目; - 参数控制:见55%
常用工具命令:
分为全局命令和项目命令:全局命令不需要依靠Scrapy项目就可以在全局中执行,项目命令必须依靠项目;
全局命令:
-
scrapy -h
会显示所有的全局命令: -
fetch
命令:用来显示爬虫爬取的过程,例如可以用scrapy fetch url
显示出爬取对应网址的过程;如果在项目之外使用该命令会调用默认的爬虫来进行网页的爬取,项目内调用使用项目爬虫;参数:—headers
控制显示对应的爬虫爬取网页时的头信息,--nolog
不显示日志信息。。。。 -
runspider
命令:实现不依托Scrapy项目,直接运行一个爬虫文件; -
settings
命令:查看Scrapy对应的配置信息; -
shell
命令:可以启动Scrapy的交互终端,经常在开发和调试的时候用到,可以实现在不启动Scrapy爬虫的情况下对网站响应进行调试,exit()
退出交互终端; -
startproject
命令:创建项目; -
version
命令:显示Scrapy的版本信息; -
view
命令:实现下载某个网页并用浏览器查看的功能;
项目命令:
除去全局命令外还有:
-
bench
命令:测试本地硬盘性能,会创建一个本地服务器并以最大速度爬行; -
genspide
r命令:创建Scrapy爬虫文件,基于现有爬虫模板,用参数-1
查看当前使用的模板; -
check
命令:实现对某个爬虫文件进行合同(contract)检查; -
crawl
命令:启动某个爬虫,“crawl 文件名
”; -
list
命令:列出当前可使用的爬虫文件; -
edit
命令:直接打开对应编辑器对爬虫文件进行编辑; -
parse
命令:实现获取指定的URL
网址,并使用对应的爬虫文件进行处理和分析;有很多参数:-h
查看
网友评论