美文网首页
Python图片爬虫系列---批量下载谷歌图片Googleima

Python图片爬虫系列---批量下载谷歌图片Googleima

作者: jl先生 | 来源:发表于2019-12-22 16:19 被阅读0次

最近有些图片爬取的需求,相信很多做CV的也需要,记录一下自己遇到的坑。

1. 安装

两种方法

(1)pip 安装, 如果爬取100张一下建议选用
pip install google_image_download
(2)源码安装
git clone https://github.com/hardikvasa/google-images-download.git

进入目录下运行google-images-download即可(当然前提是运行环境能上google),案例如下:

#爬取google图片搜索的cat下100张图片
python google-images-download.py -k "cat" -l 100 
分别爬取多个关键词的图片20张并存储在制定目录
python google-images-download.py --keywords "Polar bears, baloons, Beaches" --limit 20 -o "/usr/bin/.."

但是爬取100张以上的图片会报错。。

2.解决100张一下报错的问题:

安装chromedriver ,记得对应版本号与chrome一致。chromedriver官方地址

vim google_images_download/google_images_download.py
//在第165行插入:
options.add_argument('--proxy-server=socks5://localhost:1080') #你的proxy

然后再爬取就easy了。

googleimagesdownload -k "Sexy" -l 2000 --chromedriver="./chromedriver"

参考文献:

  1. Github issues问题
  2. 解决100限制的proxy问题
  3. 官方文档用法

相关文章

网友评论

      本文标题:Python图片爬虫系列---批量下载谷歌图片Googleima

      本文链接:https://www.haomeiwen.com/subject/mmponctx.html