一、作者最近
最近重新规划了下学习打算中午学爬虫框架,晚上学python 基础计划,人越来越懒没有动力
二、初始Scrapy
win+r 运行cmd,输入scrapy -h就可以看到scrapy关键指令
Available commands:
bench Run quick benchmark test
fetch Fetch a URL using the Scrapy downloader
genspider Generate new spider using pre-defined(定义) templates
runspider Run a self-contained spider (without creating a project)
settings Get settings values
shell Interactive scraping console
startproject Create new project
version Print Scrapy version
view Open URL in browser, as seen by Scrapy
首先调用scrapy 指令,调用的格式:
scrapy <command> [options] [args] 其中scrapy是scrapy 命令
startproject 创建一个新工程 scrapy starproject <name>[dir]
genspider 创建一个爬虫 scrapy genspider[options]<name> <domain>
settings 获取爬虫配置信息 scrapy setting[options]
crawl 运行一个爬虫 scrapy crawl <sprider>
list 列出工程中所有爬虫给 scrapy list
shell 启动url 调试命令行 scrapy shell [url]
首先创建一个爬虫项目:
在控制台输入 scrapy startproject turorial
就会生成一个tutorial文件,文件目录格式如下:
创建目录.png
tutorial/
scrapy.cfg # 部署配置文件
tutorial/ # Python模块,代码写在这个目录下
__init__.py
items.py # 项目项定义文件
pipelines.py # 项目管道文件
settings.py # 项目设置文件
spiders/ # 我们的爬虫/蜘蛛 目录
__init__.py
项目创建完后创建爬虫:
网友评论