这是一个爬虫—爬取天眼查网站的企业信息

这是一个爬虫—爬取天眼查网站的企业信息

作者: 吉祥鸟hu | 来源:发表于2018-12-20 13:34 被阅读1921次

爬虫简介

image
这是一个在未登录的情况下，根据企业名称搜索，爬取企业页面数据的采集程序

注意: 这是一个比较简单的爬虫，基本上只用到了代理，没有用到其他的反反爬技术，不过由于爬取的数据比较多，适合刷解析技能的熟练度，所以高手勿进

代码已经上传到GitHub上，有用还请给个星

python版本：python2.7

编码工具：pycharm

数据存储：mysql

爬虫结构：广度爬虫

爬虫思路：

iamge

先获取需要采集信息的公司：
1. 从数据库中获取
2. 获取字段：etid，etname
3. 将获取的数据存储的状态表中
4. 从状态表中获取数据，并更新状态表
拼接初始URL：
1. 将etname和初始url进行拼接，获得初始网址
2. 将初始url放到一个列表中，获取HTML的时候如何出错，将出错的url放到另一个列表中，进行循环获取
请求解析初始一级页面：
1. 验证查询的公司是否正确（？？）
2. 获取二级页面url
3. 将二级url放到一个列表中，获取HTML的时候如何出错，将出错的url放到另一个列表中，进行循环获取
请求解析二级页面：
1. 获取的信息待定
将公司的信息存储到数据库中：
1. 建表
2. 存储信息

所建的表：

iamge

企业主要信息： et_host_info
工商信息： et_busi_info
分支机构信息： et_branch_office
软件著作权信息： et_container_copyright_info
网站备案信息： et_conrainer_icp_info
对外投资信息： et_foreign_investment_info
融资信息： et_rongzi_info
股东信息： et_stareholder_info
商标信息： et_trademark_info
微信公众号信息：et_wechat_list_info
状态表： et_name_status

看一下部分的结果图：

iamge

iamge

iamge

iamge

相关文章

网友评论

python

本文标题：这是一个爬虫—爬取天眼查网站的企业信息

本文链接：https://www.haomeiwen.com/subject/hzrykqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

python

关于我们|服务条款|联系我们|这是一个爬虫—爬取天眼查网站的企业信息|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！