美文网首页
Web Scraper 保姆级新手使用教程

Web Scraper 保姆级新手使用教程

作者: 067ad9b0bfd8 | 来源:发表于2021-01-17 15:13 被阅读0次

    一个免费的批量快速抓取页面信息的插件

    一个永久免费帮助你可以抓取用户反馈评价的东西

    一个无需代码编程基础也能操作的神器

    一个帮助你减少很多人力成本取寻找整理信息的黑科技

    .....

    Web Scraper-一个可以网站信息抓取的谷歌浏览器插件

    使用教程:

    准备:

    1、下载谷歌浏览器

    2、下载Web scraper插件

    PS:谷歌浏览器不需要外网也可以在网上下载,但是Web Scraper就需要能使用外网下载了

    最后结果展示


    打开你要抓取的网页。

    首先要使用该插件来提取网页数据需要在开发者工具模式中使用,使用快捷键Ctrl+Shift+I/F12或者点击右键,选择“检查(Inspect)”,在【开发者工具】下面就能看到WebScraper的Tab。如下图所示:

    新建一个Sitemap

    点击Create New Sitemap,里面有两个选项,选create sitemap 

    然后进行这两个操作:

    1、Sitemap Name:代表你这个Sitemap是适用于哪一个网页的,所以你可以根据网页来自命名,不过需要使用英文字母,比如我抓的是知乎的数据,那我就用zhihu来命名。

    2、Sitemap URL:把网页链接复制到Star URL这一栏,比如图片里我把知乎「英语」的主页链接复制到了这一栏,而后点击下方的create sitemap来新建一个Sitemap

    3、设置Sitemap

    整个Web Scraper的抓取逻辑是这样:设置一级 Selector,选定抓取范围;在一级 Selector 下设置二级 Selector,选定抓取字段,然后抓取。

    对于文章而言,一级 Selector 就是你要把这一块文章的要素圈出来,这个要素可能包含了 标题、作者、发布时间、评论数等等,然后我们再在二级 Selector 中挑出我们要的要素,比如标题、作者、阅读数。

    下面我们来拆解这个设置一级、二级 Selector 的工作流:

    (1)点击 Add new selector 创建一级 Selector。

    而后按照以下步骤操作:

    输入id:id代表你抓取的整个范围,比如这里是文章,我们可以命名为zhihu-english;

    选择Type:type 代表你抓取的这部分的类型,比如元素/文本/链接,因为这个是整个文章要素范围选取,我们需要用Element 来先整体选取(如果这个网页需要滑动加载更多,那就选 Element Scroll Down);

    勾选Multiple:勾选 Multiple 前面的小框,因为你要选的是多个元素而不是单个元素,当我们勾选的时候,爬虫插件会帮助我们识别多篇同类的文章;

    保留设置:其余未提及部分保留默认设置

    (2)点击select选择范围,按照以下步骤操作:

    -选择范围:用鼠标选择你要爬取数据的范围,绿色是待选区域,用鼠标点击后变为红色,才是选中了这块区域;

    -多选:不要只选一个,下面的也要选,否则爬出来的数据也只有一行;

    -完成选择:记得点Done Selecting;

    -保存:点击Save Selector。

    (3)设置好了这个一级的Selector之后,点进去设置二级的Selector,按照以下步骤操作:

    -新建Selector:点击 Add new selector ;

    -输入id:id代表你抓取的是哪个字段,所以可以取该字段的英文,比如我要选「标题」,我就写「title」

    -选择Type:选Text,因为你要抓取的是文本;

    -勿勾选Multiple:不要勾选 Multiple 前面的小框,因为我们在这里要抓取的是单个元素;

    -保留设置:其余未提及部分保留默认设置。

    (4)点击 select,再点击你要爬取的字段,按照以下步骤操作:

    -选择字段:这里爬取的字段是单个的,用鼠标点击该字段即可选定,比如要爬标题,那就用鼠标点击某篇文章的标题,当字段所在区域变红即为选中

    -完成选择:记得点 Done Selecting

    -保存:点击 Save Selector

    (5)重复以上操作,直到选完你想爬的字段。

    4、爬取数据

    (1)之后你想要爬取数据只需要设置完所有的Selector就可以开始:

    点击Scrape,弹出一个小窗后爬虫就会开始工作。你会得到一个列表,上面有你想要的所有数据。

    (2)如果你希望把这些数据做一个排序,比如按照阅读量、赞数、作者等指标排序,让数据更一目了然,那么你可以点击 Export Data as CSV,把它导入 Excel 表里。

    (3)导入 Excel 表格之后,你就可以对数据进行筛选了。

    结果展示

    这个是简单的初级操作,大家去试试吧

    相关文章

      网友评论

          本文标题:Web Scraper 保姆级新手使用教程

          本文链接:https://www.haomeiwen.com/subject/hmiaaktx.html