- 新建项目,通过如下命令安装scrapy框架
pip install Scrapy
- 创建scrapy项目
scrapy startproject my-project
该命令将会创建包含下列内容的 tutorial 目录:
tutorial/
scrapy.cfg
tutorial/
init.py
items.py
pipelines.py
settings.py
spiders/
init.py
...
这些文件分别是:
scrapy.cfg: 项目的配置文件
tutorial/: 该项目的python模块。之后您将在此加入代码。
tutorial/items.py: 项目中的item文件.
tutorial/pipelines.py: 项目中的pipelines文件.
tutorial/settings.py: 项目的设置文件.
tutorial/spiders/: 放置spider代码的目录.
- 创建爬虫业务类
cd my-project
scrapy genspider <爬虫名> <爬虫网站>
业务类可以在 tutorial/tutorial/spiders目录下找到,在这个类中完成业务逻辑。
- 运行
scrapy runspider tutorial/tutorial/spiders/xxx.py
5.如下例子是爬东京残奥会奖牌榜信息
源页面为https://olympics.com/tokyo-2020/paralympic-games/en/results/all-sports/medal-standings.htm
网友评论