美文网首页python
这是一个爬虫—爬取天眼查网站的企业信息

这是一个爬虫—爬取天眼查网站的企业信息

作者: 吉祥鸟hu | 来源:发表于2018-12-20 13:34 被阅读1921次

    爬虫简介

    image
    这是一个在未登录的情况下,根据企业名称搜索,爬取企业页面数据的采集程序

    注意: 这是一个比较简单的爬虫,基本上只用到了代理,没有用到其他的反反爬技术,不过由于爬取的数据比较多,适合刷解析技能的熟练度,所以高手勿进

    代码已经上传到GitHub上,有用还请给个星

    python版本:python2.7

    编码工具:pycharm

    数据存储:mysql

    爬虫结构:广度爬虫

    爬虫思路:

    iamge
    1. 先获取需要采集信息的公司:
      1. 从数据库中获取
      2. 获取字段:etid,etname
      3. 将获取的数据存储的状态表中
      4. 从状态表中获取数据,并更新状态表
    2. 拼接初始URL:
      1. 将etname和初始url进行拼接,获得初始网址
      2. 将初始url放到一个列表中,获取HTML的时候如何出错,将出错的url放到另一个列表中,进行循环获取
    3. 请求解析初始一级页面:
      1. 验证查询的公司是否正确(??)
      2. 获取二级页面url
      3. 将二级url放到一个列表中,获取HTML的时候如何出错,将出错的url放到另一个列表中,进行循环获取
    4. 请求解析二级页面:
      1. 获取的信息待定
    5. 将公司的信息存储到数据库中:
      1. 建表
      2. 存储信息

    所建的表:

    iamge
    1. 企业主要信息: et_host_info
    2. 工商信息: et_busi_info
    3. 分支机构信息: et_branch_office
    4. 软件著作权信息: et_container_copyright_info
    5. 网站备案信息: et_conrainer_icp_info
    6. 对外投资信息: et_foreign_investment_info
    7. 融资信息: et_rongzi_info
    8. 股东信息: et_stareholder_info
    9. 商标信息: et_trademark_info
    10. 微信公众号信息:et_wechat_list_info
    11. 状态表: et_name_status

    看一下部分的结果图:

    iamge
    iamge
    iamge
    iamge

    相关文章

      网友评论

        本文标题:这是一个爬虫—爬取天眼查网站的企业信息

        本文链接:https://www.haomeiwen.com/subject/hzrykqtx.html