按照时间排列选取时间最近的两个文件夹,并将里面的内容保存下来,可以用于计算变化率
#path按照第六第七列(时间)排序,选取前两个的第八列(文件路径名)
paths=`hadoop fs -ls $HDFS_path | sort -r -k6,7 |head -n 2 |awk '{print $8}'`
#按照空格切分
read -a WORDS <<< $paths
if[ ${#array[@]} -ne 2 ];then
echo "there is less than two copies of history data"
exit 0
fi
hadoop fs -cat ${WORDS[0]}/*/*/part-* > ../data/new.data
hadoop fs -cat ${WORDS[1]}/*/*/part-* > ../data/old.data
网友评论