美文网首页Python爬虫从入门到放弃
python爬虫从入门到放弃之十四:Scrapy入门使用

python爬虫从入门到放弃之十四:Scrapy入门使用

作者: 52d19f475fe5 | 来源:发表于2019-07-27 18:16 被阅读4次

——Scrapy是为持续运行设计的网络爬虫框架,提供操作的Scrapy命令行,更适合程序员使用

  • Scrapy常用命令行
1. 创建一个scrapy项目:scrapy startproject <项目名称>

2. 生成一个爬虫:scrapy genspider <爬虫名称> <允许爬取的域名>

3. 运行一个爬虫:scrapy crawl <爬虫名称>

以上,列出最常用的三个,其他可以用scrapy -h查看

  • Scrapy项目流程
  1. 创建一个scrapy项目:scrapy startproject myspider

  2. 生成一个爬虫:scrapy genspider douban book.douban.com

  3. 提取数据:完善spider,使用re等方法

  4. 保存数据:pipeline中保存数据

  • Scrapy项目实例

目标网站:豆瓣Top250图书 https://book.douban.com/top250

爬取数据:书名、评分、推荐语、链接

步骤如下:
  1. 创建scrapy项目和爬虫
    示例:
scrapy startproject myspider
cd myspider
scrapy genspider douban book.douban.com
创建scrapy项目和爬虫

返回上一级目录:生成文件树:

文件树

生成的文件如下:

文件树

douban.py内容如下:

douban.py代码

相关文章

网友评论

    本文标题:python爬虫从入门到放弃之十四:Scrapy入门使用

    本文链接:https://www.haomeiwen.com/subject/hpherctx.html