美文网首页
hive导入到clickhouse的几种方式总结

hive导入到clickhouse的几种方式总结

作者: 卫渐行 | 来源:发表于2020-06-15 21:26 被阅读0次

    在开发过程中,需要从HDFS中导入数据到clickhouse中,探索了几种方式,以及一些坑与大家分享;

    • Waterdrop 参考大神的文章,实现快速的安装,和相关配置如何快速地把HDFS中的数据导入ClickHouse

      因为waterdrop是通过spark的RDD方式,能够实现数据的快速导入;

      基本配置如下

      spark {
        spark.app.name = "Waterdrop"
        spark.executor.instances = 2
        spark.executor.cores = 8
        spark.executor.memory = "2g"
      }
      input {
          hive {
              pre_sql = "sql "
              table_name = "temp_table"
          }
      }
      filter {
         
      }
      output {
          clickhouse {
              host = "IP:port
              database = "dwst"
              table = "tb_name"
              fields = ["partition_id" ~~"]
              username = "username"
              password = "pwd"
          }
      }
      
      

      配置非常简单,1千万的数据量,能够在10分钟以内只能导入;使用该方法消耗内存较大,成本较大;

    csv 文件导入到clickhouse当中

    第一步 生成csv文件

    选择合适的分隔符;大部分情况下,会选择逗号或者hive的默认分隔符\001 ,可以参考文件 详解hive的列分隔符和行分隔符的使用

    情况一:由于存储中可能含有分割符,导致分割列的时候,会多出几列的情况;比如说本来是5列的情况,但是却分割出来6列的情况,就是因为数据中含有分隔符的情况,所有如果出现该情况,需要对于可能出现情况的列进行特殊处理

    regexp_replace(t.column_name,'\t|\n|\001','') as column_name,
    

    特别注意 列中的换行符以及tab符号,需要处理掉,否则也会出现一些问题;

    情况二 :clickhouse中不能出现null需要对所有可能的列,进行如下处理

     ifnull(tm.column_name,0) as column_name,
    

    ​ 情况三:因为hive导出之后,原来的bigint,会出现10.0的情况,在有些情况下,需要进行截断

    ​ 情况四: hive中的列的属性,和clickhouse中列的属性不一致会出现问题;对于clickhouse多列的情况下,一定要细致,一个个列的属性进行校验

    ​ Float-->bigInt出现错误

    ​ int8--->Uint8之间转换错误;

    第二步 csv导入到clickhouse当中;

    csv导入clickhouse的方式,常见的有两种方式;通过clickhouse的jdbc执行sql和使用clickhouse的clickhouse-client客户端的方式,数据量大的情况下,切记不要用第一种方式,一定要切记;切记

    方式一: 写一个Python脚本,pandas,以及整合了csv的写入的实现,数据量不大的时候,小于500百万,列在50列左右的时候,可以使用

    方式二:

    //需要加入列名,推荐使用
    cat ~/csv_fileName.csv| clickhouse-client  --host=ip --port=19000 --user=username --password=pwd --format_csv_delimiter=$'\001' --query="INSERT INTO table_name FORMAT CSVWithNames"
    //真正的数据
    cat ~/csv_fileName.csv| clickhouse-client  --host=ip --port=19000 --user=username --password=pwd --format_csv_delimiter=$'\001' --query="INSERT INTO table_name FORMAT CSV"
    

    常见错误:

    Code: 27. DB::Exception: Cannot parse input: expected , before:
    
    • clickhouse列的属性和hive不匹配,包括类型和列的个数
    • clickhouse 时间类型

    相关文章

      网友评论

          本文标题:hive导入到clickhouse的几种方式总结

          本文链接:https://www.haomeiwen.com/subject/ogxkxktx.html