环境要求
jdk版本:jdk 1.8
redis版本:不限
系统:linux /windows
项目概述
该爬虫程序手动上传需要爬取的csv文件,以instid + 任意分隔符 + 网页地址组成,分隔符设置详见后续配置文件分析。 爬虫csv文件.png 文件上传完成即开始爬取,这里可以在多台局域网中部署爬虫,增加爬取速度,但只有一台需要开启主程序,详见后续配置文件分析。爬取结果会定时生成固定格式的爬取结果文件。 爬取结果.png文件夹说明
文件夹.pngbin文件夹是启动程序
config是配置文件
docs是说明文档(包括本文)
files生成的爬虫文件
lib是爬虫的jar包(不用管)
logs是爬虫日志
配置文件说明
项目启动前需要设置配置文件 配置文件.pngapplication.yml放的是主要配置,application.yml.bac是配置文件的备份。
# 爬取线程数
crawlerThreadNum: 10
# 爬虫结果整理时间
cronExpression: "0 * * * * ?"
# 是否是主程序YES or NO(单机版默认为是,分布式爬取的情况下一台机器设为主程序,其他机器设为非主程序)
master: "YES"
# 爬虫结果文件是否发送SFTP到指定位置YES or NO
sendFtp: "NO"
# 爬虫文件分隔符
separator: ","
如果需要修改redis的访问ip
redis配置.png
SFTP.setting放的是sftp的配置信息。
SFTP_URL=134.64.12.237
SFTP_PORT=21
SFTP_USERNAME=nlkf
SFTP_PASSWORD=Nlkf237#
REMOTE_FILE_PATH=/data/xxzx/dpi
项目部署和使用(window)
项目启动.png双击start.bat,出现如下画面说明启动成功。 启动画面.png 这时可以打开项目的管理页面。http://localhost:8083/crawler/home
首页.png 项目版本不同页面可能也不一样,基本功能就是爬虫文件的上传和爬取结果的展示。 上传.png
项目部署和使用(Linux)
Linux下的使用需要用户掌握一定的Linux基础知识,本文档会尽量详细的让没有linux使用经验的人员也能使用。
首先,用户拿到的是一个tar.gz的文件,首先需要解压,
tar -zxvf crawler-v2-1.0-20190621.tar.gz
解压.png
cd crawler-v2-1.0/bin/
sh start.sh
启动画面2.png
查看日志
tail -f /root/crawler-v2-1.0/logs/sys-info
上传爬虫文件
cd /root/crawler-v2-1.0/bin/
sh append /root/dpi_url_20190531.csv
上传成功.png
查看状态
cd /root/crawler-v2-1.0/bin/
sh status.sh
停止服务
cd /root/crawler-v2-1.0/bin/
sh stop.sh
网友评论