「爬虫」09图片爬虫（以千图网为例）

作者: 林拂晓 | 来源:发表于2020-01-11 17:24 被阅读0次

「爬虫」09图片爬虫（以千图网为例）
千图网图片爬虫
Scrapy框架--通用爬虫Broad Crawls（下，具体代
如何采集网页中的图片及链接数据
Python爬虫代理池
Python爬虫代理池
爬煎蛋网妹子图
去哪儿网图片爬虫及Scrapy使用详解
Node.js第一次小爬虫
基础篇-爬虫基本原理

1.图片爬虫

从互联网中自动把对方服务器上的图片爬下来的爬虫程序。

2.实例：爬取千图网电影海报专栏的图片

（1）获取电影海报专栏第一页、第二页的url

https://www.58pic.com/piccate/2-130-384.html

https://www.58pic.com/piccate/2-130-384-p02.html

（2）构造pageurl，提取每一页的url

pageurl=“http://www.58pic.com/piccate/2-130-384-p”+str(i)+“.html”

data=urllib.request.urlopen(pageurl).read().decode(“utf-8,ignore”)

（3）获取某一张图片大图的url

https://preview.qiantucdn.com/58pic/18/82/26/84758PIC3F1cB9fxfIEMp_PIC2018.jpg!w1024_new_0

（4）调出专栏页面源代码，查看上图在源代码中的相关代码

data-original="//preview.qiantucdn.com/58pic/18/82/26/84758PIC3F1cB9fxfIEMp_PIC2018.jpg!qt324new_nowater"

（5）对比大图url和相关源码，构造提取大图的正则表达式，提取所有大图的源码

pat=’data-original=”//(.*?)”’

imglist=re.compile(pat).findall(data)

（6）构造所有大图的url

thisimgurl=”http://”+thisimg

（7）代码编写：

爬取千图网电影海报专栏的代码

「爬虫」09图片爬虫（以千图网为例）
1.图片爬虫从互联网中自动把对方服务器上的图片爬下来的爬虫程序。 2.实例：爬取千图网电影海报专栏的图片（1）...
千图网图片爬虫
利用正则表达式和requests下载千图网高清图片,非会员图片哦网页整体规则性比较一致，多翻阅几个页面就可以发现...
Scrapy框架--通用爬虫Broad Crawls（下，具体代
通过前面两章的熟悉，这里开始实现具体的爬虫代码广西人才网以广西人才网为例，演示基础爬虫代码实现，逻辑：配置R...
如何采集网页中的图片及链接数据
本篇教程我们以采集【昵图网】为例，话不多说，赶紧和我一起想学习吧：采集图片及链接地址以采集昵图网某图片为例一...
Python爬虫代理池
爬虫代理IP池在公司做分布式深网爬虫，搭建了一套稳定的代理池服务，为上千个爬虫提供有效的代理，保证各个爬虫拿到的...
Python爬虫代理池
爬虫代理IP池在公司做分布式深网爬虫，搭建了一套稳定的代理池服务，为上千个爬虫提供有效的代理，保证各个爬虫拿到的...
爬煎蛋网妹子图
利用 BeautifulSoup + Requests 爬取煎蛋网妹子图一、爬煎蛋网一页图片此爬虫只能爬取...
去哪儿网图片爬虫及Scrapy使用详解
本文分为两部分，去哪儿网图片爬虫和Scrapy使用详解。Scrapy使用详解基于去哪儿网图片爬虫进行解析说明。去...
Node.js第一次小爬虫
此次学习nodejs，进行了一次小爬虫，肯定是要记录下来的。此次爬虫以慕课网为例，爬取某一课程的章节信息。代码在...
基础篇-爬虫基本原理
本文为自己动手，丰衣足食！Python3网络爬虫实战案例的学习笔记，部分图片来源于视频截图。爬虫：请求网站，并提...