Python学习笔记(9)采集图片网址并下载图片——以途牛旅游网

Python学习笔记(9)采集图片网址并下载图片——以途牛旅游网

作者: 2890bd62c72a | 来源:发表于2019-08-14 22:15 被阅读8次

Python学习笔记(9)采集图片网址并下载图片——以途牛旅游网
pyhone爬虫简单使用
【读书笔记】_爬虫
通过图片网址保存图片(增删+缩略图)
如何采集网页中的图片及链接数据
2018-07-15
python学习三 03 再爬一个网站，根据分页，下载图片
iOS中SDWebImage框架浅析
Python爬虫-搜索并下载图片
多线程03

一、操作步骤

爬虫不仅能抓到网页上的文本、网址数据，还可以批量下载图片到电脑中。无论是列表页还是详情页上的图片，只要能获取图片网址都可以用爬虫来下载图片。下面就以途牛网的自助游网页为案例，操作步骤如下：

注意事项：从爬虫软件V9.0.0开始，图片下载后的存储位置有了很大改变，但是定义规则过程不变，请注意看第五步里面的说明和相应的链接。

二、案例规则+操作步骤

样本网址：http://www.tuniu.com/tours/210299425
采集内容：旅游名称、价格、图片网址。

如果纯粹采集图片，就不知道图片来源于哪里，所以，我们通常会把网页上的文本信息“旅游名称”“价格”也采集下来，最后可以用excel把它们匹配起来。文章《采集网页数据》已经详细讲过前两步操作了，下面就从第三步操作开始讲。

第三步：采集图片网址

3.1，点击小图可以定位到它的IMG节点。我们不直接采集大图，因为大图是由小图放大的，并且只显示一张，也就只能抓到一张大图，但是小图可以全部抓到，最后用excel处理就能变成大图，所以，类似这种网页的情况抓小图就容易多了。

3.2，再双击展开IMG，就会在attributes下面找到@src，它就是存储图片网址的节点

3.3，右击@src，选择内容映射->新建抓取内容，再输入标签名“小图网址”

3.4，选中“小图网址”，打勾下载图片

注意：映射@src节点给标签“小图网址”后，只需打勾下载内容->下载图片，不要勾高级设置->抓取特定内容->网页片段和图片网址，否则输出的图片网址就是错误的，无法下载到图片。

第四步：样例复制

4.1，在整理箱里右击“小图网址”，添加新标签“列”，再移动位置使“列”包容“小图网址”。其中，标签“列”只是用来做样例复制的，因为网页上的旅游名称、价格信息只有一条，而小图是多张，所以，要单独对小图做样例复制。

4.2，选中“列”，勾上“启用”，找到第一个小图的网页节点LI映射给样例1，它的下一个LI映射给样例2。关于样例复制可以看文章《采集列表数据》来掌握。

第五步：存规则，爬数据

5.1，点击测试，只抓到第一张小图网址，其他的都抓空了，说明数据规则需要微调一下。通常调整定位，选择绝对定位就可以解决。

5.2，点击存规则、爬数据，采集成功后会在本地DataScraperWorks文件夹中生成xml文件和存储图片的文件夹。

5.３，最后把xml文件和图片导入到excel中进行匹配，可以调整图片大小，

如果你依然在编程的世界里迷茫，可以加入我们的Python学习扣qun：784758214，看看前辈们是如何学习的！交流经验！自己是一名高级python开发工程师，从基础的python脚本到web开发、爬虫、django、数据挖掘等，零基础到项目实战的资料都有整理。送给每一位python的小伙伴！分享一些学习的方法和需要注意的小细节，点击加入我们的 python学习者聚集地

相关文章

Python学习笔记(9)采集图片网址并下载图片——以途牛旅游网
一、操作步骤爬虫不仅能抓到网页上的文本、网址数据，还可以批量下载图片到电脑中。无论是列表页还是详情页上的图片，只...
pyhone爬虫简单使用
为了采集到大量图片进行图片分类的迁移学习，简单的学习下python爬虫技术，方便采集到大量图片提高效率 1.获取整...
【读书笔记】_爬虫
使用urllib模块爬取图片并下载到本地 python爬虫框架-Scrapy学习自：http://python.j...
通过图片网址保存图片(增删+缩略图)
功能需求说明：用户提交图片网址，然后由程序将该图片下载并保存到指定的位置。注：提前安装图片支持模块Pillow（...
如何采集网页中的图片及链接数据
本篇教程我们以采集【昵图网】为例，话不多说，赶紧和我一起想学习吧：采集图片及链接地址以采集昵图网某图片为例一...
2018-07-15
Scrapy框架学习 - 使用内置的ImagesPipeline下载图片需求分析需求：爬取斗鱼主播图片，并下载...
python学习三 03 再爬一个网站，根据分页，下载图片
python学习三 03 再爬一个网站，根据分页，下载图片 Python安装 python学习一 python...
iOS中SDWebImage框架浅析
下载图片并显示下载图片并计算下载进度使用SDWebImageManager单例下载同时做内存缓存和图片缓存可...
Python爬虫-搜索并下载图片
本文是我学习Python爬虫的笔记,一直想要再学一门语言来扩展自己的知识面,看了看各种语言主要使用的方向,最后决心...
多线程03
SDWebImage框架详解下载图片并显示：下载图片/显示图片/内存缓存/磁盘缓存下载图片\内存缓存\磁盘缓...

网友评论

本文标题：Python学习笔记(9)采集图片网址并下载图片——以途牛旅游网

本文链接：https://www.haomeiwen.com/subject/ymdkjctx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

Python，web开发，前端技术分享

大数据爬虫Python AI Sql

互联网科技

码农的世界

热点阅读

Python，web开发，前端技术分享

大数据爬虫Python AI Sql

互联网科技

码农的世界

关于我们|服务条款|联系我们|Python学习笔记(9)采集图片网址并下载图片——以途牛旅游网|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！