爬虫-天眼查数据

作者: wtfysa | 来源:发表于2018-11-05 12:49 被阅读7次

前言

最近在学习爬虫,目标网站是天眼查。 爬虫页面.png

就是这个列表,字段有 省,市,区,行业,子行业,公司名称,企业状态,负责人(或法定代表人),注册资本,注册时间,联系电话,邮箱,data_id(公司的id,以后需要公司其他信息有这个id将很方便能得到)。

分析

对于直接输入关键字搜索出来的列表,这里还有个更好的搜索功能:https://www.tianyancha.com/search
我们发现这里可以根据上面的条件查询出列表,非VIP只能查询100条数据,而VIP会员则可以查询5000条数据,如果需要爬虫大量数据,则必须要一个VIP账号。而且高级筛选功能也需要VIP才可以用,我想只要有手机号码的,所以必须要VIP了。
因为有5000条数据的限制,所以进行完省市区行业分类的筛选后,如果搜索出来的结果还是多于5000,那就要再进行其他条件的细化了,我对注册资本和注册时间也进行细化,已经基本差不多能满足5000以内了。

步骤

我用的是 selenium,mysql储存数据, 虽然说用这个效率会很低,但是我只是个小白啊,什么代理IP,token, _utm都没有研究过,只是很单纯,很直接,很暴力的撸了他们的页面。

  1. 登录https://www.tianyancha.com/login
    登录页面.png
    直接F12看页面结构,很容易找到输入手机号和密码的输入框标签和登录按钮标签
driver.find_element_by_xpath(".//*[@id='web-content']/div/div/div/div[2]/div/div[2]/div[2]/div[2]/div[2]/input").send_keys('账号')
driver.find_element_by_xpath(".//*[@id='web-content']/div/div/div/div[2]/div/div[2]/div[2]/div[2]/div[3]/input").send_keys('密码')
driver.find_element_by_xpath(".//*[@id='web-content']/div/div/div/div[2]/div/div[2]/div[2]/div[2]/div[5]").click()
  1. 进入搜索页面
    搜索页面中首先就是筛选条件的选择 筛选.png
    注意:左下角那个 风险监控 原本是一个横条展开状态的,它会影响到分页的点击事件,所以在登录的时候需要把它收起来到左下角去。这个坑了我两个小时。。。
    还有个需要注意的是,选择筛选条件之后会被记住,所以注册资本,注册时间这两个条件循环查询完之后需要再选一下全部让它恢复默认选项
    也是一层层分析页面的标签,找到目标标签就行,到这里我们已经知道了省市区和行业了,接下来就是看列表了
    列表.png
    class="search-item"就是列表的项了,里面data-id就是公司的id,下面是分页,前面说了需要把下面一个横条收起来,要不分页会报错,因为横条遮住了分页按钮,selenium能操作的标签都必须要显示的,被遮挡或下拉选择框都需要让标签显示出来再进行点击或其他操作。
    补充一下前面筛选条件
#行业分类,其他条件类似操作
div3 = driver.find_element_by_class_name("-level")
content_list3 = div3.find_element_by_class_name("content").find_elements_by_class_name("item")
hy_div = div3.find_elements_by_tag_name('div')[0]
ActionChains(driver).move_to_element(hy_div).perform() #鼠标悬停在行业分类
ActionChains(driver).move_to_element(content_list3[x]).perform() #鼠标悬停在一级行业,使显示出二级的行业

分页的话,我是直接点击下一页,所以不用考虑当前在哪一页,只需要知道当前列表全部条数还有每页是20条数据,如果点击页面数的话,逻辑应该会复杂一点。

总结

目前爬虫天眼查公司列表数据,已基本实现账号被挤退重新登录,条件细分查询(查询行业数据超过5000条才会进行注册资本的细分,注册资本的细分后还有超过5000的再进行注册时间的细分,避免每次都细分太多条件导致效率更忙),分页
还有一些问题,比如解析页面的时候偶尔抽风解析报错导致程序停止。还找不错什么原因。还有个最大的问题是爬虫一段时间后会出现验证码,这个两张图片选文字的验证码我是没办法的,只能遇到验证码的时候进入一个死循环并播放一个声音让自己知道手动去验证通过之后跳出死循环继续执行。

本篇只是记录自己在爬虫天眼查的一点感想和思路而已,完整代码就不贴了,最后贴一张结果吧 长春市23W多条有手机号码的数据.png

相关文章

  • 爬虫-天眼查数据

    前言 就是这个列表,字段有 省,市,区,行业,子行业,公司名称,企业状态,负责人(或法定代表人),注册资本,注册时...

  • 爬虫——天眼查数据抓取

    天眼查数据抓取的难点在于解析网页,如果直接在网页端通过F12分析网页,发现一些信息还是比较难以获取的,那么比较简单...

  • 用爬虫抓取天眼查数据

    天眼查是一个可以查询企业信息的网站,如果我们想把上面的数据都抓取下来,要怎么做呢? 除了可以用python这种高级...

  • python爬天眼查企业详情页数据,天眼查爬虫

  • 查数据网站

    国外数据:bloomberg ; dealogic国内数据:wind 万得; 天眼查等; --摘自《巫师财经》

  • python 爬虫

    最近爬取天眼查的企业数据,天眼查的页面用的js技术,所以用requests已经不能爬了,所以想了两种办法 1.用s...

  • 天眼查

    01 跳槽换了新工作,原来租的房子离新单位太远,于是狠狠心与原房东解除合同,重新跑去中介登记,期望在最短的时间内租...

  • 1、从自建服务器到选择阿里云

    引言 此文集主要用来记录我的“天眼查”爬虫生涯,给这个时刻2018/7/20赋上历史的Flag。 代码部分还没上,...

  • 原来天眼查要交会员费才可以查

    你了解天眼查吗? 昨天在头条上面搜东西,资料来自天眼查,看了一点点,再要看的时候,显示要下载天眼查APP才能查看。...

  • 天眼查技巧

    一般看天眼查的操作,按照个人习惯,先看风险项。如果有法院认定公司违规,那么就需要多加细心深入一点。 同理,如果一家...

网友评论

  • 知识学者::joy: 趴一下,淘宝评论。
  • yemoumou:望长城内外,惟余莽莽;大河上下,顿失滔滔。-简书朋友你好,我是币圈一老友,我的写作方向是区块链和数字货币,初到简书,望多多关照。互粉互赞,已赞,期待您的回赞哦。-ҥ׀块链婛
  • 潇洒的夏夏:这种东西爬虫很简单
    wtfysa:想请教下有没有更加高效的方法?
  • 夏沫95:大佬,能否给下完整代码,学习下哈
    wtfysa:这种东西还是有了思路自己写吧:joy: :joy:

本文标题:爬虫-天眼查数据

本文链接:https://www.haomeiwen.com/subject/pzvjxqtx.html