机器学习很火!深度神经网络很火!
目前这一切都是建立在大量的数据集之上。
But,公开数据集往往不能满足实际应用需求,需要自己创建各类数据集。
今天介绍的是一个利用搜狗图片搜索引擎来,抓取图片建立计算机视觉数据集的方法。
脚本程序功能:
利用搜狗引擎,搜索获取图片结果,分析协议并爬取原图
支持断点续传
运行效果:
python脚本运行效果 下载的图片源代码:
抓取程序开发过程简述:
- 分析获取抓取协议
1. 利用浏览器,开启调试模式
2. 输入搜狗图片搜索主页
3. 输入“牧羊犬”,显示第一页结果
4. 向下滚屏,查看后续结果
5. 分析整个交互过程,获取到关键的交互协议
- 基于分析得到的关键交互协议完成开发
看源代码应该能够了解程序原理,如有需要了解详情的可以留言交流。
网友评论