基于Python爬取天眼查网站的企业信息

作者: 9ba4bd5525b9 | 来源:发表于2019-03-27 13:49 被阅读37次

基于Python爬取天眼查网站的企业信息
基于Python爬取天眼查网站的企业信息!Python无所不能！
Python爬取天眼查企业数据
2018-03-22
这是一个爬虫—爬取天眼查网站的企业信息
这是一个爬虫—爬取天眼查网站的企业信息
用爬虫抓取天眼查数据
python 爬虫
反爬虫解析-字体替换(天眼查/猫眼电影)
简易的企业信息数据爬取软件

爬虫简介

这是一个比较简单的爬虫，基本上只用到了代理，没有用到其他的反反爬技术，不过由于爬取的数据比较多，适合刷解析技能的熟练度，所以高手勿进

python版本：python2或Python3 两个版本的代码都有

编码工具：pycharm

数据存储：mysql

爬虫结构：广度爬虫

想要学习Python？Python学习交流群：984632579满足你的需求，资料都已经上传群文件，可以自行下载！

爬虫思路：

先获取需要采集信息的公司：

1、从数据库中获取

2、获取字段：etid，etname

3、将获取的数据存储的状态表中

4、从状态表中获取数据，并更新状态表

拼接初始URL：

1、将etname和初始url进行拼接，获得初始网址

2、将初始url放到一个列表中，获取HTML的时候如何出错，将出错的url放到另一个列表中，进行循环获取

请求解析初始一级页面：

1、验证查询的公司是否正确（？？）

2、获取二级页面url

3、将二级url放到一个列表中，获取HTML的时候如何出错，将出错的url放到另一个列表中，进行循环获取

请求解析二级页面：

1、获取的信息待定

将公司的信息存储到数据库中：

1、建表

2、存储信息

看一下部分的结果图：

GitHub地址：https://github.com/huquan1996/PythonSpider/tree/master/Item4%EF%BC%9Aspider_tianyancha

网友评论

虫虫

本文标题：基于Python爬取天眼查网站的企业信息

本文链接：https://www.haomeiwen.com/subject/dhrzvqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

基于Python爬取天眼查网站的企业信息

爬虫简介

爬虫思路：

看一下部分的结果图：

相关文章