使用Python爬虫收集鸟类图像

作者: a11en0 | 来源:发表于2018-05-05 19:26 被阅读0次

使用Python爬虫收集鸟类图像
Python爬虫学习（十六）初窥Scrapy
Python爬虫入门
opencv python接口用法
python图像识别
数据采集，图像数据处理，Python分布式爬虫，Mahout，T
爬虫所要了解的基础知识，这一篇就够了！Python网络爬虫实战系
Python爬虫入门-Cookie的使用
一文详解Python字典的使用方法，体验Python让人飞起的强
解决《用Python写网络爬虫》中示例网站访问不了的问题

BirdNet 爬虫

特性

跨平台
命令行工具
只需用户键入要获取的鸟类名称,即可自动下载图片到本机

环境需求:

python3
pip3包管理器
chrome浏览器
爬虫程序包

准备工作

安装依赖包

pip3 install -r requirements.txt

下载浏览器接口驱动chromedriver

所有chromedriver都可以在这里找到,下载对应自己浏览器(Chrome版本可以在设置->关于chrome里面查看
)和操作系统的版本:

http://chromedriver.storage.googleapis.com/index.html

备用镜像站点

http://npm.taobao.org/mirrors/chromedriver

本人测试版本:
chrome 65.0.3325.181
chromedriver 2.36

Linux平台(推荐):

下载完成解压缩后:

cp ./chromedriver /usr/local/bin
cd /usr/local/bin
chmod +x ./chromedriver

Windows平台

解压缩后,复制整个目录到c盘下,将该目录添加进环境变量

环境变量配置

附录:

ChromeDriver与Chrome版本映射表：

映射表

使用方法:

python3 master.py

按照提示符输入要爬取的鸟类的中文名(用于搜索)与英文名称(用于保存时候文件命名)即可,下载的文件会在与master.py所在的同一目录下建立/pic/$name 进行保存;

运行结果.png

ps.

关于/pic/$name 目录下的page.txt文件:
该文件保存的是获取到的图片的总张数n,当下一次继续获取相同鸟类图片时,会以n+1的命名方式继续保存;

可能遇到的问题:

问题1 这是由于没有成功加载chromedriver,请检查环境变量是否配置正确;

问题1

问题2 这是由于chromedriver和chrome的版本不对应所导致,请重新下载适配的版本;

问题2

ps.启动程序后,chrome浏览器被自动打开,可能也是由于版本不适配的原因

如果存在其他问题,或者对该程序有更好的建议\优化方案,你可以通过Email联系我,我会尽量在24h内查看邮件并回复

邮箱地址:Orion97.gy@gmail.com

网友评论

本文标题：使用Python爬虫收集鸟类图像

本文链接：https://www.haomeiwen.com/subject/vvuerftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

使用Python爬虫收集鸟类图像

BirdNet 爬虫

特性

环境需求:

准备工作

安装依赖包

下载浏览器接口驱动chromedriver

Linux平台(推荐):

Windows平台

附录:

使用方法:

ps.

可能遇到的问题:

如果存在其他问题,或者对该程序有更好的建议\优化方案,你可以通过Email联系我,我会尽量在24h内查看邮件并回复

邮箱地址:Orion97.gy@gmail.com

相关文章

使用Python爬虫收集鸟类图像

Python爬虫学习（十六）初窥Scrapy

Python爬虫入门

opencv python接口用法

python图像识别

数据采集，图像数据处理，Python分布式爬虫，Mahout，T

爬虫所要了解的基础知识，这一篇就够了！Python网络爬虫实战系

Python爬虫入门-Cookie的使用

一文详解Python字典的使用方法，体验Python让人飞起的强

解决《用Python写网络爬虫》中示例网站访问不了的问题

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读