开发环境
hive 1.2.1
elasticsearch 7.1.0
- 上传elasticsearch-hadoop
上传到hdfs
hdfs dfs -put elasticsearch-hadoop-7.1.0.jar /user/hive/
- 在hive中添加elasticsearch-hadoop-7.1.0.jar hive中添加依赖
- 查看原表数据: 查看表数据
- 创建hive和es的映射表: 创建映射表
- 创建索引 创建employee索引
-
查看同步数据结果
同步数据
同步数据
遇到的问题:
映射表和原表查询的字段对不上
1.同步的字段对不上
2.出现空的数据做主键
空的数据做id
解决办法:
设置'es.index.read.missing.as.empty'='true'
3.把elasticsearch-hadoop.jar放在hive的安装目录lib下面,一直提示找不到类,但是查看jar里面明明是有的,手动add才不报错
网友评论