美文网首页
Pyhton 入门(11) 爬取html中的图片至本地

Pyhton 入门(11) 爬取html中的图片至本地

作者: 走码人 | 来源:发表于2023-06-07 16:30 被阅读0次

    (1) 获取html中的img标签

    通过正则表达式来获取html内容的img标签
    正则:'<[img|IMG].*?>'

    需要注意的是,img标签是否有结束标记
    存在结束标记的正则:'<[img|IMG].*?/>'

        re_img = r'<[img|IMG].*?>' 
        re_img_rc = r'.+?src="(\S+)"' 
        img_url_list = []
        img_list= re.findall(re_img, html)#找到所有的img标签
        for tag in img_list:
            #print(tag)
            img_url_list.append(re.findall(re_img_rc, tag)[0])#找到所有的img_url
    

    (2) 根据url获取图片

    • 从request请求的返回中获取文件名称
     def get_file_name(url, headers):
        filename = ''
        if 'Content-Disposition' in headers and headers['Content-Disposition']:
            disposition_split = headers['Content-Disposition'].split(';')
            if len(disposition_split) > 1:
                if disposition_split[1].strip().lower().startswith('filename='):
                    file_name = disposition_split[1].split('=')
                    if len(file_name) > 1:
                        filename = unquote(file_name[1])
        if not filename and os.path.basename(url):
            filename = os.path.basename(url).split("?")[0]
        if not filename:
            return time.time()
        return filename
    
    • 从request请求的返回中获取图片字节流并保存
    #读取url中的图片,保存至file中
    def getImageByUrl(url,path):
        headers={
            'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3861.400 QQBrowser/10.7.4313.400'}
        re=requests.get(url,headers=headers)
        print(re.status_code)
        #print(re.url)
        filename=get_file_name(url,re.headers)
        print('获取图片-->',filename)
        path="%s\%s"%(path,eval(filename))
        print(re.status_code)#查看请求状态,返回200说明正常
        if(200==re.status_code):
            #path='test.jpg'#文件储存地址
            with open(path, 'wb') as f:#把图片数据写入本地,wb表示二进制储存
                for chunk in re.iter_content(chunk_size=128):
                    f.write(chunk)
        
    
    • request请求的返回对象结构
    image.png

    相关文章

      网友评论

          本文标题:Pyhton 入门(11) 爬取html中的图片至本地

          本文链接:https://www.haomeiwen.com/subject/vttoedtx.html