Scrapy简介
Scrapy是一个健壮的网络框架,它可以从各种数据源中抓取数据。
Scrapy能够识别残缺的HTML。
Scrapy既不存储数据,也不索引数据。它只用于抽取数据。它对很多数据库也都有所支持。
安装Scrapy
因为我安装了Anaconda,所以直接在其下面安装
conda install scrapy
shell命令
进入scrapy的URL调试控制台
scrapy shell [--pdb] www.xxx.com
--pdb: 启用交互式调试
第一个Scrapy项目
scrapy startproject properties
编写爬虫
创建一个名为basic的默认爬虫
scrapy genspider basic 网址
运行爬虫
scrapy crawl 爬虫名
scrapy parse --spider=爬虫名 网址
保存文件
scrapy crawl 爬虫名 -o xxx.json
scrapy crawl 爬虫名 -o xxx.jl
scrapy crawl 爬虫名 -o xxx.csv
scrapy crawl 爬虫名 -o xxx.xml
Item加载器
ItemLoader
网友评论