爬虫-天眼查数据

作者: wtfysa | 来源:发表于2018-11-05 12:49 被阅读7次

    前言

    最近在学习爬虫,目标网站是天眼查。 爬虫页面.png

    就是这个列表,字段有 省,市,区,行业,子行业,公司名称,企业状态,负责人(或法定代表人),注册资本,注册时间,联系电话,邮箱,data_id(公司的id,以后需要公司其他信息有这个id将很方便能得到)。

    分析

    对于直接输入关键字搜索出来的列表,这里还有个更好的搜索功能:https://www.tianyancha.com/search
    我们发现这里可以根据上面的条件查询出列表,非VIP只能查询100条数据,而VIP会员则可以查询5000条数据,如果需要爬虫大量数据,则必须要一个VIP账号。而且高级筛选功能也需要VIP才可以用,我想只要有手机号码的,所以必须要VIP了。
    因为有5000条数据的限制,所以进行完省市区行业分类的筛选后,如果搜索出来的结果还是多于5000,那就要再进行其他条件的细化了,我对注册资本和注册时间也进行细化,已经基本差不多能满足5000以内了。

    步骤

    我用的是 selenium,mysql储存数据, 虽然说用这个效率会很低,但是我只是个小白啊,什么代理IP,token, _utm都没有研究过,只是很单纯,很直接,很暴力的撸了他们的页面。

    1. 登录https://www.tianyancha.com/login
      登录页面.png
      直接F12看页面结构,很容易找到输入手机号和密码的输入框标签和登录按钮标签
    driver.find_element_by_xpath(".//*[@id='web-content']/div/div/div/div[2]/div/div[2]/div[2]/div[2]/div[2]/input").send_keys('账号')
    driver.find_element_by_xpath(".//*[@id='web-content']/div/div/div/div[2]/div/div[2]/div[2]/div[2]/div[3]/input").send_keys('密码')
    driver.find_element_by_xpath(".//*[@id='web-content']/div/div/div/div[2]/div/div[2]/div[2]/div[2]/div[5]").click()
    
    1. 进入搜索页面
      搜索页面中首先就是筛选条件的选择 筛选.png
      注意:左下角那个 风险监控 原本是一个横条展开状态的,它会影响到分页的点击事件,所以在登录的时候需要把它收起来到左下角去。这个坑了我两个小时。。。
      还有个需要注意的是,选择筛选条件之后会被记住,所以注册资本,注册时间这两个条件循环查询完之后需要再选一下全部让它恢复默认选项
      也是一层层分析页面的标签,找到目标标签就行,到这里我们已经知道了省市区和行业了,接下来就是看列表了
      列表.png
      class="search-item"就是列表的项了,里面data-id就是公司的id,下面是分页,前面说了需要把下面一个横条收起来,要不分页会报错,因为横条遮住了分页按钮,selenium能操作的标签都必须要显示的,被遮挡或下拉选择框都需要让标签显示出来再进行点击或其他操作。
      补充一下前面筛选条件
    #行业分类,其他条件类似操作
    div3 = driver.find_element_by_class_name("-level")
    content_list3 = div3.find_element_by_class_name("content").find_elements_by_class_name("item")
    hy_div = div3.find_elements_by_tag_name('div')[0]
    ActionChains(driver).move_to_element(hy_div).perform() #鼠标悬停在行业分类
    ActionChains(driver).move_to_element(content_list3[x]).perform() #鼠标悬停在一级行业,使显示出二级的行业
    

    分页的话,我是直接点击下一页,所以不用考虑当前在哪一页,只需要知道当前列表全部条数还有每页是20条数据,如果点击页面数的话,逻辑应该会复杂一点。

    总结

    目前爬虫天眼查公司列表数据,已基本实现账号被挤退重新登录,条件细分查询(查询行业数据超过5000条才会进行注册资本的细分,注册资本的细分后还有超过5000的再进行注册时间的细分,避免每次都细分太多条件导致效率更忙),分页
    还有一些问题,比如解析页面的时候偶尔抽风解析报错导致程序停止。还找不错什么原因。还有个最大的问题是爬虫一段时间后会出现验证码,这个两张图片选文字的验证码我是没办法的,只能遇到验证码的时候进入一个死循环并播放一个声音让自己知道手动去验证通过之后跳出死循环继续执行。

    本篇只是记录自己在爬虫天眼查的一点感想和思路而已,完整代码就不贴了,最后贴一张结果吧 长春市23W多条有手机号码的数据.png

    相关文章

      网友评论

      • 知识学者::joy: 趴一下,淘宝评论。
      • yemoumou:望长城内外,惟余莽莽;大河上下,顿失滔滔。-简书朋友你好,我是币圈一老友,我的写作方向是区块链和数字货币,初到简书,望多多关照。互粉互赞,已赞,期待您的回赞哦。-ҥ׀块链婛
      • 潇洒的夏夏:这种东西爬虫很简单
        wtfysa:想请教下有没有更加高效的方法?
      • 夏沫95:大佬,能否给下完整代码,学习下哈
        wtfysa:这种东西还是有了思路自己写吧:joy: :joy:

      本文标题:爬虫-天眼查数据

      本文链接:https://www.haomeiwen.com/subject/pzvjxqtx.html