美文网首页
​Python帮你定制批量获取你想要的信息

​Python帮你定制批量获取你想要的信息

作者: 永恒君的百宝箱 | 来源:发表于2019-07-17 23:46 被阅读0次

    前段时间帮一个小伙伴解决了这样一个问题,如下图:

    问题描述

    因为种种原因,小伙伴需要提取该网站的这一条条的信息,包括类型、许可证号、名称、日期等等。从图片上看到,一共有244页,手工复制粘贴的话根本就不现实。而且网站的信息是动态的,过段时间数据更新了,又面临着一系列繁琐的ctrl+c,ctrl+v。这个时候他找到我问有没有办法解决这个问题。

    解决思路

    接触过网页和python的朋友肯定一眼就看出来了,这就是个爬虫问题:
    1、打开首页网址,获取的网页代码
    2、分别定位到所需要获取的信息标签位置,提取类型、许可证号、名称、日期等一系列的信息。

    3、然后打开下一页的网页,重复1、2的动作。
    4、爬取完所有的网页后,把爬取到的信息汇总到一个列表当中。
    5、新建excel文件,把数据写入,保存即可。
    以上就是大致的一个操作过程,另外还要适当的加上一些反爬的代码和与用户简单交互的代码,显得人性化一些。

    最终效果演示:

    后续当然可以添加诸如多线程、图形化界面、封装等功能,可以再进一步提高效率。

    源代码涉及到一些隐私,就不放了。之前也写过类似的文章:

    Python帮你定制批量获取智联招聘的信息


    感兴趣的可以联系我一起交流。

    相关文章

      网友评论

          本文标题:​Python帮你定制批量获取你想要的信息

          本文链接:https://www.haomeiwen.com/subject/fjvhlctx.html