Python爬取图片网站资源并下载

作者: 浪漫矢志不渝 | 来源:发表于2021-04-08 12:01 被阅读0次

    首先针对不同网站采取的方式大同小异,但是基本大多数网站,不外乎通过匹配页面元素获取图片路径,或者api接口直接获取。这里主要介绍通过匹配页面元素获取的方式,达到采集图片资源并下载的目的。

    这里主要引入的包有下面这些,具体这些包有哪些作用,可以自行了解。

    类包

    一般采集都会封装成函数,我这里就不封装了:

    首先设置一些公共的参数配置,进项相关的准备配置。

    path:图片存储路径。

    host:采集域名(一般进行资源路径拼接时,可能需要用到)。

    url:采集的页面链接(根据情况可配置成灵活路径)。

    headers:模拟请求headers头,一般视情况而定。

    基本设置

    接下来就是进行页面数据的采集匹配了

    采集下载图片

    其中涉及灵活配置路径,有必要可以试一下,通过requests.get获取页面内容,在通过etree.HTML格式化内容,以便给xpath匹配信息。

    拿到资源列表数据后,循环再去取图片资源内容,并写到文件中,基本就完成了。

    相关文章

      网友评论

        本文标题:Python爬取图片网站资源并下载

        本文链接:https://www.haomeiwen.com/subject/dqgmkltx.html