美文网首页
Hive存储文件命名的规则

Hive存储文件命名的规则

作者: OldChicken_ | 来源:发表于2018-12-12 18:42 被阅读37次

Hive命令行

Hive在存储文件时候,有一些文件命名的规则,现在还不是很懂底层的原理,但是把现象记录下来,以备之后讨论。

hive> insert into table db.table PARTITION (part_date = '2018-12-12') values ('col1_value', 9),('col1_value', 10);

在表中插入数据后,可以hdfs对应路径下找到存储的文件

$ hadoop fs -ls /user/hive/warehouse/dw_dev.db/wxm_dev_hive02/part_date=2018-12-12
Found 1 items
-rwxr-xr-x   3 hadoop supergroup        356 2018-12-12 17:22 /user/hive/warehouse/db.db/table/part_date=2018-12-12/000000_0

继续插入另一些数据

hive> insert into table db.table PARTITION (part_date = '2018-12-12') values ('col1_value', 1),('col1_value', 2);

在hdfs对应路径下找到存储的文件,是一个名为000000_0的文件

$ hadoop fs -ls /user/hive/warehouse/db.db/table/part_date=2018-12-12
Found 2 items
-rwxr-xr-x   3 hadoop supergroup        356 2018-12-12 17:22 /user/hive/warehouse/db.db/table/part_date=2018-12-12/000000_0
-rwxr-xr-x   3 hadoop supergroup        356 2018-12-12 17:32 /user/hive/warehouse/db.db/table/part_date=2018-12-12/000000_0_copy_1

多了一个名为000000_0_copy_1的文件,继续添加,会生成类似的000000_0_copy_x文件。

Spark SQL

Spark SQL也可以在hive中操作文件,但是生成的文件名与命令行生成的文件名有所不同。执行命令insert into table db.table02 PARTITION (part_date = '2018-12-12') values ('col1_value', 6),('col1_value', 7),文件形式如下:

$ hadoop fs -ls /user/hive/warehouse/db.db/table02/part_date=2018-12-12
Found 2 items
-rwxr-xr-x   3 hadoop supergroup        345 2018-12-12 18:39 /user/hive/warehouse/dw_dev.db/wxm_dev_hive03/part_date=2018-12-12/part-00000-7eab8ca9-3ed1-42c6-8dfa-3ea622518542-c000
-rwxr-xr-x   3 hadoop supergroup        345 2018-12-12 18:39 /user/hive/warehouse/dw_dev.db/wxm_dev_hive03/part_date=2018-12-12/part-00001-7eab8ca9-3ed1-42c6-8dfa-3ea622518542-c000

值得注意的是,两个文件的文件名完全相同,或许这与hive纪录的无序特性相关。

相关文章

  • Hive存储文件命名的规则

    Hive命令行 Hive在存储文件时候,有一些文件命名的规则,现在还不是很懂底层的原理,但是把现象记录下来,以备之...

  • 协同编辑作业说明

    目录 文件命名规则文件结尾规则技巧学习Log日志 详细内容如下: 一、文件命名规则文件命名规则有二: 以数字开头,...

  • 在hive查询中使用变量

    1.Hive配置属性 Hive配置属性存储于 hiveconf 命名空间中,该命名空间中的属性是可读写的。在查询语...

  • Hive文件存储格式

    文件存储格式 Hive支持的存储数据的格式主要有:TEXTFILE(行存储)、SEQUENCEFILE(行存储)、...

  • Linux文件操作命令

    微信公众号:软测小生 ruancexiaosheng文件命名规则 (1)文件命名规则Linux系统中的文件名称最长...

  • Hive 主流文件存储格式对比

    Hive 主流文件存储格式对比 1、存储文件的压缩比测试 1.1 测试数据 1.2 TextFile 创建表,存储...

  • Java文件命名规则

    Java文件的命名规则 Java程序源文件的命名必须满足两种规则 1、Java程序源文件的后缀必须为(.java)...

  • Presto Hive连接器

    概览 Hive连接器允许查询存储在Hive数据仓库中的数据。Hive是由三个部分组成。 各种格式的数据文件通常存储...

  • Kafka文件的存储

    kafka文件存储形式 每个partition为一个目录,partition命名的规则是topic的名称加上一个序...

  • Hive文件存储格式

    列式存储和行式存储 上图左边为逻辑表,右边第一个为行式存储,第二个为列式存储。 ** 行存储的特点: **查询满足...

网友评论

      本文标题:Hive存储文件命名的规则

      本文链接:https://www.haomeiwen.com/subject/zduphqtx.html