爬虫—Web Scraper（一）

爬虫—Web Scraper（一）

作者: 端_木 | 来源:发表于2017-05-08 21:50 被阅读566次

跟大家分享的是web scraper爬虫工具使用方法。

目录

1.Web Scraper插件安装

2.上手体验

3.抓取的基本步骤

4.规律多页规则

5.下载数据

1、Web Scraper插件安装：

Google浏览器扩展程序中搜素“Web Scraper”安装即可。

2、上手体验

Web Scraper-->Creater New sitemap--> Import sitemap-->sitemap JSON 区域输入神秘代码-->输入站点名（自定义）并导入。

神秘代码：

{"_id":"test","startUrl":"https://www.zhihu.com/people/chen-da-xin-84/followers?page=2","selectors":[{"parentSelectors":["_root"],"type":"SelectorText","multiple":true,"id":"Username","selector":"div.UserItem-title a.UserLink-link","regex":"","delay":"500"}]}

3、抓取的基本步骤

使用web scraper插件抓取的基本步骤为：

- 创建一个站点Create sitemap

- 新增选择器Add new selector

- 点击Scrape抓取

具体操作步骤如下：

步骤一：创建一个新的站点“Create sitemap”

打开控制台—选择web scraper插件—选择Create new sitemap—选择Create sitemap；

在Sitemap name中给站点地图命名，在Start URL中输入站点名（自定义）和网址（目标地址），点击Create Sitemap按钮，就创建好了一个站点地图。

步骤二：增加选择器，点击“Add New selector”；

选择器的配置：

1. Type选择Text文本形

2.勾选Multiple按钮，表示本页中需要抓取多个元素

3.Delay填写500

4.点击Selector的select按钮直接用鼠标选网页上的元素，绝色代码可采集的数据，点击后为红色锁定状态

步骤三：点击Scrape抓取

Request interval:请求间隔

Page load delay:页面加载延迟

4、规律多页规则

点击“Edit metadata”，修改Start URL。规律多页Start URL这里可以写成https://www.xxxx?page=[1-3]或https://www.xxxx?start=[0-5:10]（表示0-5页20条/页）。

5、下载数据

Export data as CSV

相关文章

网友评论

数据分析

本文标题：爬虫—Web Scraper（一）

本文链接：https://www.haomeiwen.com/subject/ofmvtxtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

数据分析

爬虫—Web Scraper（一）

关于我们|服务条款|联系我们|爬虫—Web Scraper（一）|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！