美文网首页数据分析
爬虫—Web Scraper(一)

爬虫—Web Scraper(一)

作者: 端_木 | 来源:发表于2017-05-08 21:50 被阅读566次

    跟大家分享的是web scraper爬虫工具使用方法。

    目录

    1.Web Scraper插件安装

    2.上手体验

    3.抓取的基本步骤

    4.规律多页规则

    5.下载数据

    1、Web Scraper插件安装:

    Google浏览器扩展程序中搜素“Web Scraper”安装即可。

    2、上手体验

    Web Scraper-->Creater New sitemap--> Import sitemap-->sitemap JSON 区域输入神秘代码-->输入站点名(自定义)并导入。

    神秘代码:

    {"_id":"test","startUrl":"https://www.zhihu.com/people/chen-da-xin-84/followers?page=2","selectors":[{"parentSelectors":["_root"],"type":"SelectorText","multiple":true,"id":"Username","selector":"div.UserItem-title a.UserLink-link","regex":"","delay":"500"}]}

    3、抓取的基本步骤

    使用web scraper插件抓取的基本步骤为:

    - 创建一个站点Create sitemap

    - 新增选择器Add new selector

    - 点击Scrape抓取

    具体操作步骤如下:

    步骤一:创建一个新的站点“Create sitemap”

    打开控制台选择web scraper插件选择Create new sitemap选择Create sitemap;

    Sitemap name中给站点地图命名,在Start URL中输入站点名(自定义)和网址(目标地址),点击Create Sitemap按钮,就创建好了一个站点地图。

    步骤二:增加选择器,点击“Add New selector”;

    选择器的配置:

    1. Type选择Text文本形

    2.勾选Multiple按钮,表示本页中需要抓取多个元素

    3.Delay填写500

    4.点击Selector的select按钮直接用鼠标选网页上的元素,绝色代码可采集的数据,点击后为红色锁定状态

    步骤三:点击Scrape抓取

    Request interval:请求间隔

    Page load delay:页面加载延迟

    4、规律多页规则

    点击“Edit metadata”,修改Start URL。规律多页Start URL这里可以写成https://www.xxxx?page=[1-3]或https://www.xxxx?start=[0-5:10](表示0-5页20条/页)。

    5、下载数据

    Export data as CSV

    相关文章

      网友评论

        本文标题:爬虫—Web Scraper(一)

        本文链接:https://www.haomeiwen.com/subject/ofmvtxtx.html