美文网首页
[Hive]格式化输出 Hive 查询结果到 Excel

[Hive]格式化输出 Hive 查询结果到 Excel

作者: 帅可儿妞 | 来源:发表于2019-11-18 15:27 被阅读0次
    1. 首先把数据查出来, 并按照执行的分隔符分割
      set hive.cli.print.header=true;
      set hive.resultset.use.unique.column.names=false;
      insert overwrite local directory '<local-dirrectory>'
      row format delimited
      fields terminated by '<your-delimiter>'
      <select-statement>;
      
    2. 把结果文件传入脚本运行(待优化):
      hive_2_excel.py <path>/0000_0
      

    首先说明一下, 上面第 1 步导出操作的文件名是系统自己定义的, 而且可能生成多个文件, 部分文件是空的, 这个就不是我们需要的了, 如果你不想这样, 想自己定义输出的文件名, 那么就可以利用Linux 的重定向解决这个问题

    hive -f <hql-file> > <ouput-file>
    

    问题又来了, 如果我使用了重定向的方式自然也就无法使用 HiveSQL 的查询指定分隔符的语法, 分隔符怎么自定义呢?

    hive -f <hql-file> | sed 's/\t/<your-seperator>/g' > <ouput-file>
    

    或者

    hive -f <hql-file> | tr "\t" "<your-seperator>" > <ouput-file>
    

    注意一下, 在第一行的 SQL 中添加了两行:

    set hive.cli.print.header=true;
    set hive.resultset.use.unique.column.names=false;
    

    其目的是在SQL 执行结果的时候生成表头, 那么在导入 Excel 的时候, 就没有必要定制表头了, 数据中天然携带


    相关文章

      网友评论

          本文标题:[Hive]格式化输出 Hive 查询结果到 Excel

          本文链接:https://www.haomeiwen.com/subject/gtkbictx.html