hive的serde解析与应用

作者: 早点起床晒太阳 | 来源:发表于2020-04-16 20:31 被阅读0次

hive的serde解析与应用
HIVE Row Formats和SerDe
Hive的serde,beeline,jdbc
【Spark】Saving data in the Hive s
hive insert overwrite hdfs(hive输
Hive系列之SerDe
009 Rust 网络编程，序列化与反序列化
Hive SQL 解析及应用
Rust第三方库之Serde：序列化/反序列化库分析
19HIVE中的DML,和serde（hive学习2）

今天把serde讲解和相关应用整理一下，参考文档如下
参考的官方文档:
https://cwiki.apache.org/confluence/display/Hive/DeveloperGuide#DeveloperGuide-HiveSerDe
https://cwiki.apache.org/confluence/display/Hive/SerDe

1、serde概述

SerDe是Serializer / Deserializer的缩写，Hive将SerDe接口用于IO。该接口既处理序列化和反序列化，又将序列化的结果解释为要处理的单个字段。
SerDe允许Hive从表中读取数据，并将其以任何自定义格式写回HDFS

Hive 使用 SerDe (and FileFormat)去读和写表中的行
它的执行流程如下

HDFS files --> InputFileFormat --> <key, value> --> Deserializer --> Row object
Row object --> Serializer --> <key, value> --> OutputFileFormat --> HDFS files

当面临一个HDFS上的文件时，Hive将如下处理（以读为例）：

(1) 调用InputFormat，将文件切成不同的文档。每篇文档即一行(Row)。
(2) 调用SerDe的Deserializer，将一行(Row)，切分为各个字段。

其实我粗浅的理解如下

就是InputFileFormat读取数据，不管是按行还是按照什么，然后通过反序列化然后解析相应的字段。
写数据就是将查询的对象序列化成对象然后 OutputFileFormat 写入HDFS 里面

2、serde的种类

1、MetadataTypedColumnsetSerDe
2、LazySimpleSerDe (这是创建表默认的serde,默认的INPUTFORMAT为
3、TextInputFormat,OUTPUTFORMAT为HiveIgnoreKeyTextOutputFormat)
4、ThriftSerDe
5、DynamicSerDe
6、ThriftSerDe
7、DynamicSerDe
8、JsonSerDe
9、Avro SerDe
10、SerDe for the ORC
11、SerDe for Parquet
12、SerDe for CSV

serde的属性可以切换

ALTER TABLE tableName SET SERDE 'serde的类名'

3、serde常用阐述

1、LazySimpleSerDe

如果不指定serde的话，默认的serde就是org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe，以行为\n,列为^A为分隔符，可以使用 row format delimited fields terminated by 来指定分隔符

这里多说两句,因为在项目中有csv的格式类似于这样 1,"xiaoming,178",87 这样的字段，即csv中有嵌套的这种情况（嵌套的里面还有分隔符），这种情况目前只能用CSV serde，因为在LazySimpleSerDe 还不支持识别这种模式。参考https://issues.apache.org/jira/browse/HIVE-8763