美文网首页
Python爬虫学习100练002

Python爬虫学习100练002

作者: 夜雨_87aa | 来源:发表于2018-03-25 14:02 被阅读0次

    爬取80s网站2018年电视剧作品主图片

    -- coding:utf-8 --

    2018年3月25日

    下载图片request.urlretrieve(jpg_link, path)

    from urllib import request
    import re

    Python 2.7.9 之后引入了一个新特性当你urllib.urlopen一个 https 的时候会验证一次 SSL 证书

    导入证书库

    import ssl

    禁掉这个证书的要求

    context = ssl._create_unverified_context()
    picture=[["网址","标题"]]

    获取图片地址

    def gettupian():
    response=request.urlopen(url,context=context)
    html=response.read().decode("utf-8")
    re_tupian=re.compile(r'<li> <a href=.? title="(.?)">.?<img id.?src="(.*?)" src',re.S)
    list=re_tupian.findall(html)
    for title,url_tp in list:
    url_tp="http:"+url_tp
    picture.append([url_tp,title])

    下载图片到本地

    def xz():
    for i in range(1,len(picture)):
    request.urlretrieve(picture[i][0],str(i)+".jpg")
    for j in range(1,5):
    url="https://www.80s.tw/ju/list/---2018-0-g-p%s"%j
    gettupian()
    print("正在下载第%s页"%j)
    xz()
    print("下载完毕")

    相关文章

      网友评论

          本文标题:Python爬虫学习100练002

          本文链接:https://www.haomeiwen.com/subject/bpbhcftx.html