这是一个爬虫—爬取天眼查网站的企业信息

这是一个爬虫—爬取天眼查网站的企业信息

作者: 烟雨丿丶蓝 | 来源:发表于2019-02-24 16:06 被阅读10次

这是一个爬虫—爬取天眼查网站的企业信息
这是一个爬虫—爬取天眼查网站的企业信息
Python爬虫使用代理-小案例
基于Python爬取天眼查网站的企业信息
Neo4j 社交网络图关系数据库
2018-03-22
各类链接
Scrapy1.6 爬虫框架3 分页处理
简易的企业信息数据爬取软件
python-爬虫学习（文字、图片、视频）

爬虫简介

image

这是一个在未登录的情况下，根据企业名称搜索，爬取企业页面数据的采集程序

注意:这是一个比较简单的爬虫，基本上只用到了代理，没有用到其他的反反爬技术，不过由于爬取的数据比较多， 适合刷解析技能的熟练度 ，所以高手勿进

python版本：python2.7

编码工具：pycharm

数据存储：mysql

爬虫结构：广度爬虫

爬虫思路：

image

先获取需要采集信息的公司：
从数据库中获取
获取字段：etid，etname
将获取的数据存储的状态表中
从状态表中获取数据，并更新状态表
拼接初始URL：
将etname和初始url进行拼接，获得初始网址
将初始url放到一个列表中，获取HTML的时候如何出错，将出错的url放到另一个列表中，进行循环获取
请求解析初始一级页面：
验证查询的公司是否正确（？？）
获取二级页面url
将二级url放到一个列表中，获取HTML的时候如何出错，将出错的url放到另一个列表中，进行循环获取
请求解析二级页面：
获取的信息待定
将公司的信息存储到数据库中：
建表
存储信息

身为老司机，还是得分享些干货精品学习资料的，推荐下小编创建的Python学习交流群556370268，这里都是一群爱好Python的小伙伴，每天还会直播和大家交流分享经验哦。

所建的表：

image

企业主要信息： et_host_info
工商信息： et_busi_info
分支机构信息： et_branch_office
软件著作权信息： et_container_copyright_info
网站备案信息： et_conrainer_icp_info
对外投资信息： et_foreign_investment_info
融资信息： et_rongzi_info
股东信息： et_stareholder_info
商标信息： et_trademark_info
微信公众号信息：et_wechat_list_info
状态表： et_name_status

看一下部分的结果图：

image

image

image

image

相关文章

这是一个爬虫—爬取天眼查网站的企业信息
爬虫简介这是一个在未登录的情况下，根据企业名称搜索，爬取企业页面数据的采集程序注意:这是一个比较简单的爬虫，基...
这是一个爬虫—爬取天眼查网站的企业信息
爬虫简介注意: 这是一个比较简单的爬虫，基本上只用到了代理，没有用到其他的反反爬技术，不过由于爬取的数据比较多，...
Python爬虫使用代理-小案例
此前写了一个天眼查的爬虫，，，然后就有人问我：没有遇到反爬吗？反爬肯定是有的，看你爬取的快慢了，爬取效率高带来的是...
基于Python爬取天眼查网站的企业信息
爬虫简介这是一个比较简单的爬虫，基本上只用到了代理，没有用到其他的反反爬技术，不过由于爬取的数据比较多，适合刷解...
Neo4j 社交网络图关系数据库
这个问题，要追述到以前的一次爬虫。以前需要做一个需求，就是去爬天眼查的企业信息。当时有这么一个需求人物关系图，那时...
2018-03-22
目前有许多网站专门提供了企业信息查询功能，比较出名的有企查查、天眼查。而天眼查不需要登录就能查看其中的信息，所以就...
各类链接
爬虫使用python-aiohttp爬取今日头条【Python】爬虫爬取各大网站新闻 Scrapy 模拟登录新...
Scrapy1.6 爬虫框架3 分页处理
今天我们来爬取专供初学者练习爬虫的网站 http://books.toscrape.com/这是一个图书网站，默认...
简易的企业信息数据爬取软件
项目简介该软件是根据企业信息汇总网站企查查中提供的数据源进行爬取的爬虫软件，采用Python语言实现，并配合依赖...
python-爬虫学习（文字、图片、视频）
爬虫-文字爬取爬虫-图片爬取爬虫-视频爬取

网友评论

本文标题：这是一个爬虫—爬取天眼查网站的企业信息

本文链接：https://www.haomeiwen.com/subject/syhbyqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

互联网科技

Python学习分享

热点阅读

互联网科技

程序员

Python学习分享

关于我们|服务条款|联系我们|这是一个爬虫—爬取天眼查网站的企业信息|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！