1.简介
使用Python开发的主要进行数据采集的一个应用程序框架,核心使用它来进行爬虫程序的快速开发,底层使用了twisted异步模块,所以在进行数据采集下载时效率非常高!
常用的scrapy中文文档:
1.0.5:http://scrapy-chs.readthedocs.io/zh_CN/1.0/intro/tutorial.html
latest:http://scrapy-chs.readthedocs.io/zh_CN/latest/topics/selectors.html#topics-selectors-htmlcode
2.安装
安装scrapy模块
pip install scrapy
或指定python版本
python2 -m pip install scrapy
安装win32模块
由于scrapy模块可能调用win底层C库进行函数操作,所以需要安装一个pypiwin32模块
pip install pypiwin32
或者
python(版本号) -m pip install pypiwin32
3.创建scrapy项目
通过执行如下命令,创建一个scrapy项目
scrapy startproject <spider_name>
如:
scrapy startproject myspider
创建好后会得到如下的文件结构
|-- myspider/ 项目根目录
|-- scrapy.cfg 项目配置文件 [cfg: config]
|-- myspider/ 爬虫 模块->以后的爬虫程序开发都在这个模块中
|-- spiders/ 爬虫程序所在的目录
|-- items.py 采集的数据->定义封装模型类的模块
|-- pipelines.py 采集的数据->采集完成之后进行数据验证、存储的模块
|-- middlewares.py 中间件定义的模块
|-- settings.py 项目设置模块
网友评论