- 首先把数据查出来, 并按照执行的分隔符分割
set hive.cli.print.header=true; set hive.resultset.use.unique.column.names=false; insert overwrite local directory '<local-dirrectory>' row format delimited fields terminated by '<your-delimiter>' <select-statement>;
- 把结果文件传入脚本运行(待优化):
hive_2_excel.py <path>/0000_0
首先说明一下, 上面第 1 步导出操作的文件名是系统自己定义的, 而且可能生成多个文件, 部分文件是空的, 这个就不是我们需要的了, 如果你不想这样, 想自己定义输出的文件名, 那么就可以利用Linux 的重定向解决这个问题
hive -f <hql-file> > <ouput-file>
问题又来了, 如果我使用了重定向的方式自然也就无法使用 HiveSQL 的查询指定分隔符的语法, 分隔符怎么自定义呢?
hive -f <hql-file> | sed 's/\t/<your-seperator>/g' > <ouput-file>
或者
hive -f <hql-file> | tr "\t" "<your-seperator>" > <ouput-file>
注意一下, 在第一行的 SQL 中添加了两行:
set hive.cli.print.header=true;
set hive.resultset.use.unique.column.names=false;
其目的是在SQL 执行结果的时候生成表头, 那么在导入 Excel 的时候, 就没有必要定制表头了, 数据中天然携带
网友评论