1.图片爬虫
从互联网中自动把对方服务器上的图片爬下来的爬虫程序。
2.实例:爬取千图网电影海报专栏的图片
(1)获取电影海报专栏第一页、第二页的url
https://www.58pic.com/piccate/2-130-384.html
https://www.58pic.com/piccate/2-130-384-p02.html
(2)构造pageurl,提取每一页的url
pageurl=“http://www.58pic.com/piccate/2-130-384-p”+str(i)+“.html”
data=urllib.request.urlopen(pageurl).read().decode(“utf-8,ignore”)
(3)获取某一张图片大图的url
https://preview.qiantucdn.com/58pic/18/82/26/84758PIC3F1cB9fxfIEMp_PIC2018.jpg!w1024_new_0
(4)调出专栏页面源代码,查看上图在源代码中的相关代码
data-original="//preview.qiantucdn.com/58pic/18/82/26/84758PIC3F1cB9fxfIEMp_PIC2018.jpg!qt324new_nowater"
(5)对比大图url和相关源码,构造提取大图的正则表达式,提取所有大图的源码
pat=’data-original=”//(.*?)”’
imglist=re.compile(pat).findall(data)
(6)构造所有大图的url
thisimgurl=”http://”+thisimg
(7)代码编写:

网友评论