美文网首页Python,web开发,前端技术分享大数据 爬虫Python AI Sql互联网科技
Python学习笔记(9)采集图片网址并下载图片——以途牛旅游网

Python学习笔记(9)采集图片网址并下载图片——以途牛旅游网

作者: 2890bd62c72a | 来源:发表于2019-08-14 22:15 被阅读8次

一、操作步骤

爬虫不仅能抓到网页上的文本、网址数据,还可以批量下载图片到电脑中。无论是列表页还是详情页上的图片,只要能获取图片网址都可以用爬虫来下载图片。下面就以途牛网的自助游网页为案例,操作步骤如下:

注意事项:从爬虫软件V9.0.0开始,图片下载后的存储位置有了很大改变,但是定义规则过程不变,请注意看第五步里面的说明和相应的链接。

二、案例规则+操作步骤

如果纯粹采集图片,就不知道图片来源于哪里,所以,我们通常会把网页上的文本信息“旅游名称”“价格”也采集下来,最后可以用excel把它们匹配起来。文章《采集网页数据》已经详细讲过前两步操作了,下面就从第三步操作开始讲。


第三步:采集图片网址

3.1, 点击小图可以定位到它的IMG节点。我们不直接采集大图,因为大图是由小图放大的,并且只显示一张,也就只能抓到一张大图,但是小图可以全部抓到,最后用excel处理就能变成大图,所以,类似这种网页的情况抓小图就容易多了。

3.2,再双击展开IMG,就会在attributes下面找到@src,它就是存储图片网址的节点

3.3,右击@src,选择内容映射->新建抓取内容,再输入标签名“小图网址”

3.4,选中“小图网址”,打勾下载图片

注意:映射@src节点给标签“小图网址”后,只需打勾下载内容->下载图片,不要勾高级设置->抓取特定内容->网页片段和图片网址,否则输出的图片网址就是错误的,无法下载到图片。

第四步:样例复制

4.1, 在整理箱里右击“小图网址”,添加新标签“列”,再移动位置使“列”包容“小图网址”。 其中,标签“列”只是用来做样例复制的,因为网页上的旅游名称、价格信息只有一条,而小图是多张,所以,要单独对小图做样例复制。

4.2,选中“列”,勾上“启用”,找到第一个小图的网页节点LI映射给样例1,它的下一个LI映射给样例2。关于样例复制可以看文章《采集列表数据》来掌握。

第五步:存规则,爬数据

5.1,点击测试,只抓到第一张小图网址,其他的都抓空了,说明数据规则需要微调一下。通常调整定位,选择绝对定位就可以解决。

5.2,点击存规则、爬数据,采集成功后会在本地DataScraperWorks文件夹中生成xml文件和存储图片的文件夹。

5.3,最后把xml文件和图片导入到excel中进行匹配,可以调整图片大小,

如果你依然在编程的世界里迷茫,可以加入我们的Python学习扣qun:784758214,看看前辈们是如何学习的!交流经验!自己是一名高级python开发工程师,从基础的python脚本到web开发、爬虫、django、数据挖掘等,零基础到项目实战的资料都有整理。送给每一位python的小伙伴!分享一些学习的方法和需要注意的小细节,点击加入我们的 python学习者聚集地

相关文章

网友评论

    本文标题:Python学习笔记(9)采集图片网址并下载图片——以途牛旅游网

    本文链接:https://www.haomeiwen.com/subject/ymdkjctx.html