美文网首页
用爬虫抓取天眼查数据

用爬虫抓取天眼查数据

作者: 极客游民 | 来源:发表于2019-01-07 23:05 被阅读0次

天眼查是一个可以查询企业信息的网站,如果我们想把上面的数据都抓取下来,要怎么做呢?

除了可以用python这种高级工具,我们还可以用一款chrome插件来解决。这个插件的名字是:Web Scraper。

webscraper.png

比如我想抓取含有“机器人”关键词的企业,先搜索一下:

image.png

可以看到这张图中和机器人相关的企业非常多,有100000+之多,那么把这些企业都下载到本地,包括企业名称,法人,电话。

打开chrome的开发者工具中,可以看到webscraper插件。

1、先新建你要抓取的项目名称,URL就是搜索页的网址。

界面 image.png

填好后,点击“Create Sitemap”创建。

2、接着,开始抓取第一步,选择你要抓取的大框架。

image.png image.png

id,随便写个名字
Type:数据类型,选择“Element”,元素

image.png

Multiple:打勾。因为我们要选择多个元素。

Delay:2000。模拟人工操作,设置延时。

点击“Select”,开始选择网页中要抓的部分。

image.png

框选中2个,才能自动把下面的同类型的框都选中。

image.png image.png

然后保存。

image.png

3、大框架选择好了以后,就开始选择你真正要抓取的那几项了。

点进去,新建小的选择项,

image.png

点击“Add new selector”

image.png

id:要抓取的项名字
Type:Text。选择文本。
如何就是选择你要抓的内容了,见下图

image.png

黄色框是之前的大框架,红色框就是要选择的内容,点中。

保存。这样公司名这一项就选择好了。

image.png

还要抓取法人和联系方式,继续新建。

image.png image.png

建好了,如下:

image.png

4、大功告成,开始抓取吧。

image.png

start scraper。程序就自动开始抓取了,会弹出一个抓取的窗口。

image.png

这是程序的小bug,刷新refresh。

image.png

结果展示出来了,可以选择导出。

image.png

导出格式为CSV。

image.png image.png

点击Download下载数据表。

image.png

ok,这就是用Web Scraper抓取天眼查数据的过程。

相关文章

  • 用爬虫抓取天眼查数据

    天眼查是一个可以查询企业信息的网站,如果我们想把上面的数据都抓取下来,要怎么做呢? 除了可以用python这种高级...

  • 爬虫——天眼查数据抓取

    天眼查数据抓取的难点在于解析网页,如果直接在网页端通过F12分析网页,发现一些信息还是比较难以获取的,那么比较简单...

  • 爬虫-天眼查数据

    前言 就是这个列表,字段有 省,市,区,行业,子行业,公司名称,企业状态,负责人(或法定代表人),注册资本,注册时...

  • 无标题文章

    一、"大数据时代",数据获取的方式: 二、什么是爬虫? 爬虫:就是抓取网页数据的程序。 三、爬虫怎么抓取网页数据:...

  • 人人都会数据分析大纲

    -实现数据分析需要有哪些东西? -有数据 --数据从何而来? ---自有数据 ---爬虫抓取 ----爬虫抓取的步...

  • spider(爬虫)

    spider(爬虫) 推荐抓取工具:火车采集器\火车头采集器 爬虫抓取网页 jsdom.js 爬虫抓取数据

  • python 爬虫

    最近爬取天眼查的企业数据,天眼查的页面用的js技术,所以用requests已经不能爬了,所以想了两种办法 1.用s...

  • python爬天眼查企业详情页数据,天眼查爬虫

  • 数据埋点方案简述

    数据是机器学习的前提,前面 使用Python爬虫抓取数据 篇介绍了通过爬虫抓取网页的方式采集数据。对于新产品,最重...

  • 基于Python的豆瓣影评分析——数据预处理

    一、数据抓取 利用python软件,抓取豆瓣网上关于《向往的生活》的影视短评,进行网页爬虫,爬虫代码如下: ...

网友评论

      本文标题:用爬虫抓取天眼查数据

      本文链接:https://www.haomeiwen.com/subject/xrpprqtx.html