美文网首页
「爬虫」09图片爬虫(以千图网为例)

「爬虫」09图片爬虫(以千图网为例)

作者: 林拂晓 | 来源:发表于2020-01-11 17:24 被阅读0次

1.图片爬虫

从互联网中自动把对方服务器上的图片爬下来的爬虫程序。

2.实例:爬取千图网电影海报专栏的图片

(1)获取电影海报专栏第一页、第二页的url

https://www.58pic.com/piccate/2-130-384.html

https://www.58pic.com/piccate/2-130-384-p02.html

(2)构造pageurl,提取每一页的url

pageurl=“http://www.58pic.com/piccate/2-130-384-p”+str(i)+“.html”

data=urllib.request.urlopen(pageurl).read().decode(“utf-8,ignore”)

(3)获取某一张图片大图的url

https://preview.qiantucdn.com/58pic/18/82/26/84758PIC3F1cB9fxfIEMp_PIC2018.jpg!w1024_new_0

(4)调出专栏页面源代码,查看上图在源代码中的相关代码

data-original="//preview.qiantucdn.com/58pic/18/82/26/84758PIC3F1cB9fxfIEMp_PIC2018.jpg!qt324new_nowater" 

(5)对比大图url和相关源码,构造提取大图的正则表达式,提取所有大图的源码

pat=’data-original=”//(.*?)”’

imglist=re.compile(pat).findall(data)

(6)构造所有大图的url

thisimgurl=”http://”+thisimg

(7)代码编写:

爬取千图网电影海报专栏的代码

相关文章

  • 「爬虫」09图片爬虫(以千图网为例)

    1.图片爬虫 从互联网中自动把对方服务器上的图片爬下来的爬虫程序。 2.实例:爬取千图网电影海报专栏的图片 (1)...

  • 千图网图片爬虫

    利用正则表达式和requests下载千图网高清图片,非会员图片哦 网页整体规则性比较一致,多翻阅几个页面就可以发现...

  • Scrapy框架--通用爬虫Broad Crawls(下,具体代

    通过前面两章的熟悉,这里开始实现具体的爬虫代码 广西人才网 以广西人才网为例,演示基础爬虫代码实现,逻辑: 配置R...

  • 如何采集网页中的图片及链接数据

    本篇教程我们以采集【昵图网】为例,话不多说,赶紧和我一起想学习吧: 采集图片及链接地址 以采集昵图网某图片为例 一...

  • Python爬虫代理池

    爬虫代理IP池 在公司做分布式深网爬虫,搭建了一套稳定的代理池服务,为上千个爬虫提供有效的代理,保证各个爬虫拿到的...

  • Python爬虫代理池

    爬虫代理IP池 在公司做分布式深网爬虫,搭建了一套稳定的代理池服务,为上千个爬虫提供有效的代理,保证各个爬虫拿到的...

  • 爬煎蛋网妹子图

    利用 BeautifulSoup + Requests 爬取 煎蛋网 妹子图 一、爬煎蛋网一页图片 此爬虫只能爬取...

  • 去哪儿网图片爬虫及Scrapy使用详解

    本文分为两部分,去哪儿网图片爬虫和Scrapy使用详解。Scrapy使用详解基于去哪儿网图片爬虫进行解析说明。 去...

  • Node.js第一次小爬虫

    此次学习nodejs,进行了一次小爬虫,肯定是要记录下来的。 此次爬虫以慕课网为例,爬取某一课程的章节信息。代码在...

  • 基础篇-爬虫基本原理

    本文为自己动手,丰衣足食!Python3网络爬虫实战案例的学习笔记,部分图片来源于视频截图。 爬虫:请求网站,并提...

网友评论

      本文标题:「爬虫」09图片爬虫(以千图网为例)

      本文链接:https://www.haomeiwen.com/subject/dfqbactx.html