美文网首页
用爬虫抓取天眼查数据

用爬虫抓取天眼查数据

作者: 极客游民 | 来源:发表于2019-01-07 23:05 被阅读0次

    天眼查是一个可以查询企业信息的网站,如果我们想把上面的数据都抓取下来,要怎么做呢?

    除了可以用python这种高级工具,我们还可以用一款chrome插件来解决。这个插件的名字是:Web Scraper。

    webscraper.png

    比如我想抓取含有“机器人”关键词的企业,先搜索一下:

    image.png

    可以看到这张图中和机器人相关的企业非常多,有100000+之多,那么把这些企业都下载到本地,包括企业名称,法人,电话。

    打开chrome的开发者工具中,可以看到webscraper插件。

    1、先新建你要抓取的项目名称,URL就是搜索页的网址。

    界面 image.png

    填好后,点击“Create Sitemap”创建。

    2、接着,开始抓取第一步,选择你要抓取的大框架。

    image.png image.png

    id,随便写个名字
    Type:数据类型,选择“Element”,元素

    image.png

    Multiple:打勾。因为我们要选择多个元素。

    Delay:2000。模拟人工操作,设置延时。

    点击“Select”,开始选择网页中要抓的部分。

    image.png

    框选中2个,才能自动把下面的同类型的框都选中。

    image.png image.png

    然后保存。

    image.png

    3、大框架选择好了以后,就开始选择你真正要抓取的那几项了。

    点进去,新建小的选择项,

    image.png

    点击“Add new selector”

    image.png

    id:要抓取的项名字
    Type:Text。选择文本。
    如何就是选择你要抓的内容了,见下图

    image.png

    黄色框是之前的大框架,红色框就是要选择的内容,点中。

    保存。这样公司名这一项就选择好了。

    image.png

    还要抓取法人和联系方式,继续新建。

    image.png image.png

    建好了,如下:

    image.png

    4、大功告成,开始抓取吧。

    image.png

    start scraper。程序就自动开始抓取了,会弹出一个抓取的窗口。

    image.png

    这是程序的小bug,刷新refresh。

    image.png

    结果展示出来了,可以选择导出。

    image.png

    导出格式为CSV。

    image.png image.png

    点击Download下载数据表。

    image.png

    ok,这就是用Web Scraper抓取天眼查数据的过程。

    相关文章

      网友评论

          本文标题:用爬虫抓取天眼查数据

          本文链接:https://www.haomeiwen.com/subject/xrpprqtx.html