Pyhton 入门(11) 爬取html中的图片至本地

作者: 走码人 | 来源:发表于2023-06-07 16:30 被阅读0次

python爬虫(2)-抓图片
BeautifulSoup4简单爬取图片并存放
爬虫-抓取图片
nodeJS 实现一个爬虫（爬取文本、图片）
Python实战计划学习笔记示例（2）爬取商品信息
【python爬虫实战】批量爬取站长之家的图片
国庆在家太无聊，用Java爬了上千张小姐姐照片...
用 Java 爬小姐姐图片，这个厉害了。。。
python爬取斗图啦表情包并下载到本地
nodeJS(request+cheerio+pump)稳定爬取

（1）获取html中的img标签

通过正则表达式来获取html内容的img标签
正则：'<[img|IMG].*?>'

需要注意的是，img标签是否有结束标记
存在结束标记的正则：'<[img|IMG].*?/>'

    re_img = r'<[img|IMG].*?>' 
    re_img_rc = r'.+?src="(\S+)"' 
    img_url_list = []
    img_list= re.findall(re_img, html)#找到所有的img标签
    for tag in img_list:
        #print(tag)
        img_url_list.append(re.findall(re_img_rc, tag)[0])#找到所有的img_url

（2）根据url获取图片

从request请求的返回中获取文件名称

 def get_file_name(url, headers):
    filename = ''
    if 'Content-Disposition' in headers and headers['Content-Disposition']:
        disposition_split = headers['Content-Disposition'].split(';')
        if len(disposition_split) > 1:
            if disposition_split[1].strip().lower().startswith('filename='):
                file_name = disposition_split[1].split('=')
                if len(file_name) > 1:
                    filename = unquote(file_name[1])
    if not filename and os.path.basename(url):
        filename = os.path.basename(url).split("?")[0]
    if not filename:
        return time.time()
    return filename

从request请求的返回中获取图片字节流并保存

#读取url中的图片，保存至file中
def getImageByUrl(url,path):
    headers={
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3861.400 QQBrowser/10.7.4313.400'}
    re=requests.get(url,headers=headers)
    print(re.status_code)
    #print(re.url)
    filename=get_file_name(url,re.headers)
    print('获取图片-->',filename)
    path="%s\%s"%(path,eval(filename))
    print(re.status_code)#查看请求状态，返回200说明正常
    if(200==re.status_code):
        #path='test.jpg'#文件储存地址
        with open(path, 'wb') as f:#把图片数据写入本地，wb表示二进制储存
            for chunk in re.iter_content(chunk_size=128):
                f.write(chunk)

request请求的返回对象结构

image.png

网友评论

本文标题：Pyhton 入门(11) 爬取html中的图片至本地

本文链接：https://www.haomeiwen.com/subject/vttoedtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

Pyhton 入门(11) 爬取html中的图片至本地

（1）获取html中的img标签

（2）根据url获取图片

相关文章

python爬虫(2)-抓图片

BeautifulSoup4简单爬取图片并存放

爬虫-抓取图片

nodeJS 实现一个爬虫（爬取文本、图片）

Python实战计划学习笔记示例（2）爬取商品信息

【python爬虫实战】批量爬取站长之家的图片

国庆在家太无聊，用Java爬了上千张小姐姐照片...

用 Java 爬小姐姐图片，这个厉害了。。。

python爬取斗图啦表情包并下载到本地

nodeJS(request+cheerio+pump)稳定爬取

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

Pyhton 入门(11) 爬取html中的图片至本地

（1） 获取html中的img标签

（2） 根据url获取图片

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

（1）获取html中的img标签

（2）根据url获取图片