美文网首页虫虫
基于Python爬取天眼查网站的企业信息

基于Python爬取天眼查网站的企业信息

作者: 9ba4bd5525b9 | 来源:发表于2019-03-27 13:49 被阅读37次

    爬虫简介

    这是一个比较简单的爬虫,基本上只用到了代理,没有用到其他的反反爬技术,不过由于爬取的数据比较多,适合刷解析技能的熟练度,所以高手勿进

    python版本:python2或Python3 两个版本的代码都有

    编码工具:pycharm

    数据存储:mysql

    爬虫结构:广度爬虫

    想要学习Python?Python学习交流群:984632579满足你的需求,资料都已经上传群文件,可以自行下载!

    爬虫思路:

    先获取需要采集信息的公司:

    1、从数据库中获取

    2、获取字段:etid,etname

    3、将获取的数据存储的状态表中

    4、从状态表中获取数据,并更新状态表

    拼接初始URL:

    1、将etname和初始url进行拼接,获得初始网址

    2、将初始url放到一个列表中,获取HTML的时候如何出错,将出错的url放到另一个列表中,进行循环获取

    请求解析初始一级页面:

    1、验证查询的公司是否正确(??)

    2、获取二级页面url

    3、将二级url放到一个列表中,获取HTML的时候如何出错,将出错的url放到另一个列表中,进行循环获取

    请求解析二级页面:

    1、获取的信息待定

    将公司的信息存储到数据库中:

    1、建表

    2、存储信息

    看一下部分的结果图:

    GitHub地址:https://github.com/huquan1996/PythonSpider/tree/master/Item4%EF%BC%9Aspider_tianyancha

    相关文章

      网友评论

        本文标题:基于Python爬取天眼查网站的企业信息

        本文链接:https://www.haomeiwen.com/subject/dhrzvqtx.html