美文网首页python爬虫
python爬虫:多媒体文件抽取

python爬虫:多媒体文件抽取

作者: 9ba4bd5525b9 | 来源:发表于2019-06-11 15:09 被阅读8次

目的

批量下载网页图片

导入库

urllib中的request中的urlretrieve方法,可以下载图片

lxml用于解析网页

requests用于获取网站信息

import urllib

from lxml import etree

import requests

定义回调函数

回调函数中,count表示已下载的数据块,size数据块大小,total表示总大小。

在使用urllib中的request中的urlretrieve方法时,加入的回调函数,会在每次数据块传递完毕时触发,传递参数,可作为下载进度使用。

获取图片地址

通过request获取图片地址后,通过xpath语法,对全局查找img标签,获取其src属性。即图片地址

下载

归并地址,命名文件路径和文件名,设定回调函数,完成下载。

i=0

for img_url in img_urls:

    urllib.request.urlretrieve('http:'+img_url,'img'+str(i)+'.jpg',schedule)

    i+=1

print('finish')

另外一组图片下载的完整代码

相关文章

网友评论

    本文标题:python爬虫:多媒体文件抽取

    本文链接:https://www.haomeiwen.com/subject/eujqfctx.html