前置条件
Linux
JDK(1.8以上,推荐1.8)
Python(推荐Python2.6.X)
Apache Maven 3.x (Compile DataX)
1.jdk1.8安装
wget --no-cookies --no-check-certificate --header "Cookie: gpw_e24=http%3A%2F%2Fwww.oracle.com%2F; oraclelicense=accept-securebackup-cookie" "http://download.oracle.com/otn-pub/java/jdk/8u141-b15/336fa29ff2bb4ef291e347e091f7f4a7/jdk-8u141-linux-x64.tar.gz"
tar -xzvf jdk-8u141-linux-x64.tar.gz
vim /etc/profile
JAVA_HOME=/opt2/software/jdk1.8.0_141
CLASSPATH=$JAVA_HOME/lib/
PATH=$PATH:$JAVA_HOME/bin
export PATH JAVA_HOME CLASSPATH
source /etc/profile
- 测试
java -version
如果每次切换和用户 发现 java -version 不生效的话,必须再执行一次 source /etc/profile
在 ~/.bashrc 文件中最后一行加上 source /etc/profile 即可
2. Maven 安装
wget http://mirrors.tuna.tsinghua.edu.cn/apache/maven/maven-3/3.3.9/binaries/apache-maven-3.3.9-bin.tar.gz
tar -zxvf apache-maven-3.3.9-bin.tar.gz
vim /etc/profile
M2_HOME=/opt2/software/apache-maven-3.3.9 #(注意这里是maven的安装路径)
export PATH=${M2_HOME}/bin:${PATH}
source /etc/profile
- 测试
mvn -v
3. dataX安装及测试
#下载
wget http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz
#解压
tar -zxvf datax.tar.gz
#运行测试
python bin/datax.py job/job.json
#同步结束,显示日志如下:
2020-10-30 12:03:24.308 [job-0] INFO JobContainer -
任务启动时刻 : 2020-10-30 12:03:14
任务结束时刻 : 2020-10-30 12:03:24
任务总计耗时 : 10s
任务平均流量 : 253.91KB/s
记录写入速度 : 10000rec/s
读出记录总数 : 100000
读写失败总数 : 0
4.crontab + dataX 定时执行同步任务
# 添加定时任务
crontab -e
#每天23点50分执行sh脚本
50 23 * * * /opt/datax/sync_gym_course_add.sh
#每隔30分钟执行sh脚本
*/30 * * * * /opt/datax/sync_gym_course_add.sh
#查看crontab日志
tail -f /var/log/cron.log
#dataX sh脚本
#!/bin/bash
python /opt/datax/bin/datax.py /opt/datax/job/gym_course_add.json
网友评论