Python帮你定制批量获取你想要的信息

作者: 永恒君的百宝箱 | 来源:发表于2019-07-17 23:46 被阅读0次

前段时间帮一个小伙伴解决了这样一个问题，如下图：

因为种种原因，小伙伴需要提取该网站的这一条条的信息，包括类型、许可证号、名称、日期等等。从图片上看到，一共有244页，手工复制粘贴的话根本就不现实。而且网站的信息是动态的，过段时间数据更新了，又面临着一系列繁琐的ctrl+c，ctrl+v。这个时候他找到我问有没有办法解决这个问题。

接触过网页和python的朋友肯定一眼就看出来了，这就是个爬虫问题：
1、打开首页网址，获取的网页代码
2、分别定位到所需要获取的信息标签位置，提取类型、许可证号、名称、日期等一系列的信息。

3、然后打开下一页的网页，重复1、2的动作。
4、爬取完所有的网页后，把爬取到的信息汇总到一个列表当中。
5、新建excel文件，把数据写入，保存即可。
以上就是大致的一个操作过程，另外还要适当的加上一些反爬的代码和与用户简单交互的代码，显得人性化一些。

最终效果演示：

后续当然可以添加诸如多线程、图形化界面、封装等功能，可以再进一步提高效率。

源代码涉及到一些隐私，就不放了。之前也写过类似的文章：

Python帮你定制批量获取智联招聘的信息

感兴趣的可以联系我一起交流。

网友评论

本文标题：Python帮你定制批量获取你想要的信息

本文链接：https://www.haomeiwen.com/subject/fjvhlctx.html

Python帮你定制批量获取你想要的信息