首先说一下工作环境:win10下python3.7、scrapy1.6
接下来一起看下项目需求:
项目需求创建图片爬虫项目命令:scrapy startproject demo
下面爬虫项目工程图:
项目工程在spider文件夹创建爬虫文件:auto_logos_spider.py
name是车标爬虫类的唯一标识,为了后面运行爬虫项目用的:scrapy crawl autologos
start_urls 是表示从里面开始爬取数据
图片代码2中img_url一定要加[],是因为scrapy.pipelines.images.ImagesPipeline需要传入列表值
代码1 代码2在items.py编写车标item,定义需要爬取信息:
车标item接下来在settings.py配置图片下载信息
图片下载配置运行一下项目:scrapy crawl autologos
下面是最原始的图片下载,会自动生成full文件夹,并且图片名称都是SHA1 hash名称
下载成功图片下面对图片进行重命名:
在pipelines.py中编写如下:
代码在settings.py中更改图片下载配置:
更改配置再次运行一下项目:scrapy crawl autologos
图片目录 下载图片
网友评论