美文网首页
爬虫说明文档

爬虫说明文档

作者: 锅锅与倩倩 | 来源:发表于2019-06-24 04:56 被阅读0次

环境要求

jdk版本:jdk 1.8
redis版本:不限
系统:linux /windows

项目概述

该爬虫程序手动上传需要爬取的csv文件,以instid + 任意分隔符 + 网页地址组成,分隔符设置详见后续配置文件分析。 爬虫csv文件.png 文件上传完成即开始爬取,这里可以在多台局域网中部署爬虫,增加爬取速度,但只有一台需要开启主程序,详见后续配置文件分析。爬取结果会定时生成固定格式的爬取结果文件。 爬取结果.png

文件夹说明

文件夹.png

bin文件夹是启动程序
config是配置文件
docs是说明文档(包括本文)
files生成的爬虫文件
lib是爬虫的jar包(不用管)
logs是爬虫日志

配置文件说明

项目启动前需要设置配置文件 配置文件.png

application.yml放的是主要配置,application.yml.bac是配置文件的备份。

# 爬取线程数
crawlerThreadNum: 10

# 爬虫结果整理时间
cronExpression: "0 * * * * ?"

# 是否是主程序YES or NO(单机版默认为是,分布式爬取的情况下一台机器设为主程序,其他机器设为非主程序)
master: "YES"

# 爬虫结果文件是否发送SFTP到指定位置YES or NO
sendFtp: "NO"

# 爬虫文件分隔符
separator: ","
如果需要修改redis的访问ip redis配置.png

SFTP.setting放的是sftp的配置信息。

SFTP_URL=134.64.12.237
SFTP_PORT=21
SFTP_USERNAME=nlkf
SFTP_PASSWORD=Nlkf237#
REMOTE_FILE_PATH=/data/xxzx/dpi

项目部署和使用(window)

项目启动.png
双击start.bat,出现如下画面说明启动成功。 启动画面.png 这时可以打开项目的管理页面。http://localhost:8083/crawler/home
首页.png 项目版本不同页面可能也不一样,基本功能就是爬虫文件的上传和爬取结果的展示。 上传.png

项目部署和使用(Linux)

Linux下的使用需要用户掌握一定的Linux基础知识,本文档会尽量详细的让没有linux使用经验的人员也能使用。
首先,用户拿到的是一个tar.gz的文件,首先需要解压,

tar -zxvf crawler-v2-1.0-20190621.tar.gz
解压.png
cd crawler-v2-1.0/bin/
sh start.sh
启动画面2.png
查看日志
tail -f /root/crawler-v2-1.0/logs/sys-info

上传爬虫文件

cd /root/crawler-v2-1.0/bin/
sh append /root/dpi_url_20190531.csv
上传成功.png
查看状态
cd /root/crawler-v2-1.0/bin/
sh status.sh

停止服务

cd /root/crawler-v2-1.0/bin/
sh stop.sh

相关文章

  • 爬虫说明文档

    环境要求 jdk版本:jdk 1.8redis版本:不限系统:linux /windows 项目概述 文件夹说明 ...

  • scrapy docker教程

    说明:此文档主要聚焦在Docker的使用上,必须配和爬虫教程 · 网络爬虫教程一起使用。 注意:一定要配合入门教程...

  • 爬虫程序解析

    上一篇文档简单介绍了使用Python爬取招标网站的基本概念。在这个文档中,将说明爬虫的具体实现方法。 一、 整体业...

  • 爬虫文档

    数据页面 店铺首页 链接店铺首页(点击打开)☜ URLhttp://www.dhgate.com/#dt1501-...

  • 爬虫说明

    很多时候,有的内容不可以直接抓(比如登陆验证,验证码之类的),这时候就需要自己去写验证规则来处理这些。 这种很多教...

  • 文档说明

    一、产品经理撰写文档的主要工具 1、Microsoft Office 2、Visio 3、Axure 4、Bals...

  • 产品需求文档(PRD)写作方法(下)

    13.2常见PRD文档包含内容 文档说明 产品说明 全局功能需求说明 详细功能需求说明 13.3全局功能说明 全局...

  • 反推“滴答清单”App产品需求文档(PRD)

    一、文档概述 1.1 文档说明 1.2文档目录 一、文档概述 1.1文档说明 1.2文档目录 1.3产品简介 1....

  • 文档权限说明

    整理自鸟哥 我们可以使用 ls -al 查看当前目录下得文件及目录 更改权限 chgrp :改变档案所属群组 这个...

  • 编写文档说明

    一级标题 二级标题 三级标题 *斜体 ***粗体 ** 列表: 第一(注意空格) 第二 无序列表: x y 146...

网友评论

      本文标题:爬虫说明文档

      本文链接:https://www.haomeiwen.com/subject/kopgqctx.html