美文网首页
WebHunter爬虫系统介绍

WebHunter爬虫系统介绍

作者: TaXue_WWL | 来源:发表于2016-07-27 18:18 被阅读97次

WebHunter是最近开发的一款新闻爬虫系统,它分为手动和自动两种模式,可以基于web容器如tomcat运行,也能够作为客户端独立运行在命令行模式下,而且能够扩充为GUI客户端。

本文是对WebHunter爬虫系统的介绍。旨在提供一份较为明晰的文档指导用户使用。

手动模式

  1. 手动模式基于web平台,部署应用之后访问对应的url,此处是本地模式,即
    http://localhost:8080/EducationNewsHunterSpider/ 如图 launcher.png
  2. 输入需要爬取的页面,以腾讯新闻模块为主要对象,以http://edu.qq.com/edunew/为根路径
    此处选取目标链接为http://edu.qq.com/a/20160727/038940.htm
    其内容为
    target.png
  3. 输入目标链接到输入框,点击提交
    ![X@Y4VD5QWZXPK]RV8O`86KS.png](https://img.haomeiwen.com/i120808/ac89c8740845d9c3.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
  4. 上方红字会提示抓取结果是否成功


    result.png
  5. 返回结果为“数据添加成功,请继续添加”,查看数据库确认是否持久化成功


    database_result.png
  6. 打开新闻展示页面,进一步确认结果


    (newsmenu.png
    newscontent.png
  7. 手动模式运行方式基本如上所述

自动模式,自动模式有两种启动方式


a. 命令行模式
b. web模式


命令行模式

  1. 应用已经打包为JavaSE的jar file,因此可以在命令行中通过java -jar filename加载,如图


    CLI.png
  2. 命令行下显示为“持久化成功”的则可以在数据库中查看到,内部逻辑已经打包在jar中不对外显示


    database2.png

web模式

  1. 这里和手动方式相同,通过http://localhost:8080/EducationNewsHunterSpider/进入启动页

    launcher.png
  2. 在上方自动模式区域输入要调用的线程数量,以及命令模式“on”/“off”
    这里输入线程数为3选取on点击submit


    auto-launcher.png
  3. 进入实时抓取页面,并显示当前扫描到的url


    scanner-web.png
  4. 同时在控制台也能实时同步抓取数据情况


    console.png
  5. 如果想要手动强制取消抓取进程,点击web界面中的“返回首页”


    scanner-web.png
  6. 在首页上方选取“off”选项,submit


    off-web.png
  7. 即可停止抓取序列

小结

本文主要从操作上对WebHunter整体做了一个详细的讲解,旨在为使用者提供一个演示文档,从而能够更直观的使用该工具抓取新闻页面。

相关文章

  • WebHunter爬虫系统介绍

    WebHunter是最近开发的一款新闻爬虫系统,它分为手动和自动两种模式,可以基于web容器如tomcat运行,也...

  • BBS爬虫系统架构介绍

    系统概述 渠道监测旨在通过爬取各种渠道、网盘、论坛、贴吧等抓取和App相关的信息,通过对获取信息的分析识别正盗版,...

  • 爬虫入门基础

    Day01 一、爬虫介绍 什么是爬虫 Python爬虫的优势 Python爬虫需要掌握什么 爬虫与反爬虫与反反爬虫...

  • 01-认识爬虫

    一、爬虫介绍 什么是爬虫 Python爬虫的优势 Python爬虫需要掌握什么 爬虫与反爬虫与反反爬虫三角之争 网...

  • Python 网络爬虫(一)

    网络爬虫的基本介绍 学习爬虫,我想主要从以下几个方面来切入 -爬虫的原理? -爬虫的作用? -爬虫的实现? -爬虫...

  • 马蜂窝分布式爬虫系统

    项目介绍:马蜂窝分布式爬虫系统项目地址:https://github.com/0xHJK/mafengwo-cra...

  • Python网络爬虫

    Python开发简单爬虫(Python2.X版本,Eclipse工具) 一、爬虫介绍 爬虫调度端:启动、停止爬虫,...

  • 爬虫介绍

    一、爬虫介绍: 什么是爬虫? 爬虫就是通过编写程序模拟浏览器上网,然后让其去互联网上抓取数据的过程。 哪些语言可以...

  • 爬虫介绍

    爬虫前奏 爬虫的实际例子: 搜索引擎(百度、谷歌、360搜索等)。 伯乐在线。 惠惠购物助手。 数据分析与研究(数...

  • 爬虫介绍

    培训计划: 爬虫的概念 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一...

网友评论

      本文标题:WebHunter爬虫系统介绍

      本文链接:https://www.haomeiwen.com/subject/hwwojttx.html