Hive读取CarbonData文件问题调试

Hive读取CarbonData文件问题调试

作者: 君子慎独焉 | 来源:发表于2020-06-03 08:15 被阅读0次

Hive读取CarbonData文件问题调试
java读取hive的orc文件
spark读写mysql、hive、kafka数据demo
spark 读取 hdfs 数据分区规则
HIVE与HDFS映射关系
[ml-100k 电影数据集] 5 按职业统计各星评价数
Hive读取索引文件问题
RandomShuffleQueue is closed and
swift3.0真机操作.plist文件
CarbonData 1.2.0集成Spark 2.1.0调研

1. 参考文档

https://github.com/apache/carbondata/blob/master/docs/hive-guide.md

2. 问题呈现

select * from test_carbon;没有数据
select count(1) from test_carbon；有值
select distinct name from test_carbon 有值;

3. 调试步骤

由于hive读取carbon是使用的serde方式；社区单独把这块拿出来建成一个子项目，位于carbondata/integration/hive里面；前面读取时使用的carbondata整个集成包来测的，这时由于要多次编译代码，使用此子项目，依赖core,comman,hadoop这三个carbondata内的子项目。
依次编译这几个项目内，根据carbondata大牛(昆哥)的建议，开始往MapredCarbonInputFormat的getSplits方法内加日志，打印文件分片信息；调试后发现没有日志；
再接着看splitList size为0，最后加到getSplits第一行，还是没有日志；
早上一直没想通，后来看select 返回的速度，感觉特别快；确定肯定是不同的查询方式；猛然想起select limit好像不走mapreduce,就去查了，查到一个配置项：hive.fetch.task.conversion，默认值为minimal；从图片中可以看到，此配置值选项有三个，more,minimal,还有一个None,不使用此配置。首先设置为None，再select * from,值出来了；再设置剩下的两个都没有值；这个配置项控制是使用直接FetchTask还是启动mapreduce.此时问题已经解决。

image.png
为了查看为什么这样，开始下载hive源码，配置远程调试，跟踪代码会发现是直接调用的FetchTask的fetch方法，里面有一步操作，会列出来表下面的文件，这块直接调用的FileSystem的子类DistributedFileSystem，中间没做处理，直接扫描的目录。carbondata的表目录结构是表下面没有文件，文件在Fact/Part0/segmentXXX/files，扫描的文件数量为0，故查不出来数据。

image.png

6.为了二次验证以上结论，把其中一个表的数据从segment里面拷贝到表根目录下面，立刻就能查出来结果。

image.png
image.png

相关文章

Hive读取CarbonData文件问题调试
1. 参考文档 https://github.com/apache/carbondata/blob/master/...
java读取hive的orc文件
hive API2hive udf 读取HDFS的orc文件
spark读写mysql、hive、kafka数据demo
读取hive库数据 pom.xml依赖配置读取hive数据demo 读取mysql数据 pom.xml配置文件 ...
spark 读取 hdfs 数据分区规则
下文以读取 parquet 文件 / parquet hive table 为例： hive metastore ...
HIVE与HDFS映射关系
问题1：Hive一条Select语句，底层是如何读取HDFS文件的？基本流程step1：根据表名到Hive元数据...
[ml-100k 电影数据集] 5 按职业统计各星评价数
hive 控制台输入 python 读取文件并画图
Hive读取索引文件问题
LZO压缩数据保存在HDFS上面可以选取LZO压缩形式。LZO压缩的特点是可以切片但是hadoop本身并不支持...
RandomShuffleQueue is closed and
调试昨天出的问题，在读取文件时的bug报错：OutOfRangeError (see above for trac...
swift3.0真机操作.plist文件
问题:在使用.plist文件的时候,发现在模拟器里可以自如的写入,读取,更新.plist文件,但是真机调试的时候,...
CarbonData 1.2.0集成Spark 2.1.0调研
编译 carbondata1.2已经支持hive+presto，carbon生态圈基本健全。基于git chec...

网友评论

大数据开发

本文标题：Hive读取CarbonData文件问题调试

本文链接：https://www.haomeiwen.com/subject/eatvzhtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

大数据开发

热点阅读

大数据开发

关于我们|服务条款|联系我们|Hive读取CarbonData文件问题调试|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！