前段时间帮一个小伙伴解决了这样一个问题,如下图:
问题描述
因为种种原因,小伙伴需要提取该网站的这一条条的信息,包括类型、许可证号、名称、日期等等
。从图片上看到,一共有244页,手工复制粘贴的话根本就不现实。而且网站的信息是动态的
,过段时间数据更新了,又面临着一系列繁琐的ctrl+c,ctrl+v。这个时候他找到我问有没有办法解决这个问题。
解决思路
接触过网页和python的朋友肯定一眼就看出来了,这就是个爬虫问题:
1、打开首页网址,获取的网页代码
2、分别定位到所需要获取的信息标签位置,提取类型、许可证号、名称、日期等一系列的信息。
3、然后打开下一页的网页,重复1、2的动作。
4、爬取完所有的网页后,把爬取到的信息汇总到一个列表当中。
5、新建excel文件,把数据写入,保存即可。
以上就是大致的一个操作过程,另外还要适当的加上一些反爬的代码和与用户简单交互的代码,显得人性化一些。
最终效果演示:
后续当然可以添加诸如多线程、图形化界面、封装等功能,可以再进一步提高效率。
源代码涉及到一些隐私,就不放了。之前也写过类似的文章:
Python帮你定制批量获取智联招聘的信息
感兴趣的可以联系我一起交流。
网友评论