美文网首页007-61班优秀作业集@产品程序员
不用写代码,webscraper 30秒抓取李笑来所有微博

不用写代码,webscraper 30秒抓取李笑来所有微博

作者: 明白1 | 来源:发表于2017-12-22 19:13 被阅读2158次
    image.png

    学习金字塔中说道,“最有效的学习方法就是教别人”。

    如果我们学到某些知识,能清楚的讲给别人听;
    或者我们学会某些技能,可以教给别人使用;

    那就说明,我们真的学会了。

    互联网从业者,平时可能需要到微博、百度,知乎之类的网站,统计一些数据,做产品分析,用户喜好之类的分析。

    但是有时候数据量比较大,手动统计太费时间,编程的话,门槛太高。

    我给大家分享一个谷歌插件,webscraper,不用写代码,点点鼠标就可以抓取互联网上大量的数据。

    这个插件,功能十分强大。

    微信公众号,微博,百度,知乎、淘宝等等,只要是网页上可以显示的信息,都可以抓取到。

    比如:咪蒙的公众号。我只用了30秒设置插件,然后出去喝了杯水,回来后,就看到数据结果:咪蒙的631篇文章标题。

    由于数量太大,我只截取了最后一段。

    image.png

    真是太爽了,有没有。

    想象一下,你打开一个网页,设置抓取格式,软件开始工作。你站起来,伸个懒腰,去外面倒一杯咖啡,回来后,需要的数据已经完整展现在你面前,多方便。

    今天我来给大家分享这个软件——webscraper。

    我们一步一步来,这次我们用李笑来微博作为例子。

    一、下载安装

    我们需要安装两个软件:

    • Chrome浏览器
    • webscraper插件

    谷歌浏览器,大家根据自己的操作系统,windows或者mac,百度搜索,下载安装即可。

    webscraper插件安装方法有两种:

    1、直接在浏览器输入地址:http://chrome.google.com/webstore/detail/web-scraper/jnhgnonknehpejjnehehllkliplmbmhn

    image.png

    按照提示点击“安装”即可

    2、从云盘下载webscraper安装包:

    链接:https://pan.baidu.com/s/1bp0Iftd
    密码: 11kt

    下载好以后,
    (1)Chrome 浏览器中输入:chrome://extensions/
    (2)将下载好的文件拖动到此此页面
    (3)根据提示点击:Add extensions;即完成安装。

    以上,所需软件就已安装完毕。

    二、打开软件

    webscraper打开的入口有三种方法:
    1、windows, linux:Ctrl+Shift+I 或者 f12, 或者 Tools / Developer tools
    2、mac: Cmd+Opt+I, 或者 Tools / Developer tools
    3、或者:右键——> 审查元素(适用于各个系统)


    image.png

    如上图,大家可以看到,红框标注的地方,出现了一个webscraper,没有安装之前是看不到的。

    三、创建sitemap

    image.png

    如上图,我们点击“create sitemap”,进入下面👇图片;


    image.png

    如上图:

    这个步骤需要输入 2 个信息:

    最后点击 Create Sitemap 按钮即可

    四、设置selector

    image.png

    如上图,点击“Add new selector”,进入下图;


    image.png

    如上图,我们按照标号来挨个看。

    1. 输入 “Id”。(自定义,不能为空,至少三个字符(数字,字母均可))
    2. 选择 “Type”,此处选择Element scroll down
    3. 点击 “Select” 进行元素抓取
    4. 上一步,点击“Select”后,会出现标号4出悬浮的工具框
    5. 点击第一个帖子
    6. 点击第二个帖子,完成后,点击悬浮工具框蓝色的“Done slecting!"
    7. 勾选 “Multiple”
    8. 输入 Delay(延迟时间,意思是等待多长时间后,再进行抓取,建议填 2000)
    9. 点击”Save Selector“

    这步完成后,你会发现,sitemap下出现了一个叫content的选择器,如下图

    image.png

    点击上图的“content”,进入下图:


    image.png

    如上如,标号1,你会发现,这里多了一个content。
    我们点击这里,标号2的地方,“Add new selector",进入下图:


    image.png

    如上图:我们按照标号依次看:

    1. 输入 “Id”。(自定义,不能为空,至少三个字符(数字,字母均可))
    2. 选择 “Type”,此处选择Text
    3. 点击 “Select” 进行元素抓取
    4. 上一步,点击“Select”后,会出现标号4出悬浮的工具框
    5. 注意,当我们点击上一步4的select后,第一个帖子会变黄,我们点击这个黄色区域,它会变为红色。
    6. 点击”Save Selector“,其他的都不用设置。

    以上,我们抓取李笑来微博的所有设置都已完成。

    五、开始抓取

    这步,我们开始正式抓取:

    image.png

    如上图,点击中间这列,点击下拉框中出现的“Scrape”,进入下图:


    image.png

    这几个都默认就行,直接点击标号4的“Start scraping”。

    点击后,浏览器会弹出一个新窗口,进行抓取工作,不要关闭,等待他抓取完毕。

    你会发现,弹出的窗口,会自动下拉鼠标,模拟人的手,自动化的将这页全部的帖子全部抓取下来。

    完毕后,会出现抓取的数据,如下图:


    image.png

    六、导出到本地电脑

    image.png

    如上图,点击中间这列,点击下拉框中的“Export data as CSV”,会进入下图。


    image.png

    如上图,点击“Download now”,即可将数据下载到本地,以表格的形式存储。

    文件可以用excel打开,mac下用numbers打开即可。

    至此,李笑来的微博我们已经全部抓取完毕了。

    怎么样,是不是很厉害。

    其实这个软件的功能远不止此,大家操作起来吧。


    这个工具有时候会受到一些程序员的鄙视,他们说自己会写代码,不屑于用这类工具。

    写代码当然可以做到这点,但是,如果你不是专业写爬虫的程序员,你要写一个功能来抓取某些数据,就拿咪蒙公众号历史文章来说,我用这个插件30秒就成完成,你用30秒估计刚打开编辑器,连引用的库都还没写完吧。

    所以别来抬杠。。。

    如果你遇到webscraper的其他问题,可以看看下面这篇文章——
    有关 webscraper 的问题,看这个就够了(建议收藏)
    https://www.jianshu.com/p/cd5124ac0871

    相关文章

      网友评论

      • eb3a0f56a9ba:说的对,30秒编辑器还没打开。。。
      • 陈_bc08:好东西
      • Aaaronwu:请问那种很长的微博怎么爬?微博会把长的内容折叠起来。我试了用click点击展开,但是那些不用展开的缺又不行了。
        明白1:@Aaaronwu 这个可以到移动端,用二级页面,二级页面不会折叠。
      • 星与星夜:谢谢明白战友的分享!webscraper 这个插件不错,回头试用一下。文章获得了 26 个喜欢,很棒,可能是第一次作业里获赞最多的简书文章!期待更多这样的实用小工具分享。

        这是 007-4569 卓璇的第 16 次点评,希望对你有帮助,期待多交流 [星与星夜 - 简书](https://www.jianshu.com/u/d8ffec36c1a7)
      • 8a5e01017030:亲爱的战友,你写的简单明了,也好用,明天一定抽空按你说的试试,又多了一项技能,感谢🙏
      • 9bc600670843:这个流弊啊,requests和beautifulsoap可以退休啦😄
        明白1:@菊花香自苦寒来 大数据量的还是需要编程的
      • 杜子期:感谢分享
      • 杜子期:迫不及待的想要尝试了
      • Reincarnationer:Mark,我写了个项目爬微博数据,没想到有这个插件,必须研究下他怎么实现的!
      • 久wsx_xx:强,有用,巨有用
        明白1:@久wsx_xx 666
      • 狗精:谢谢,你拯救了手残的我!
        明白1:@狗精 哈哈,自己摸索一下,还有更厉害的功能

      本文标题:不用写代码,webscraper 30秒抓取李笑来所有微博

      本文链接:https://www.haomeiwen.com/subject/rbopwxtx.html