美文网首页我爱编程
Apache Kudu 使用建议与限制

Apache Kudu 使用建议与限制

作者: devilteam2006 | 来源:发表于2018-04-08 22:13 被阅读0次

    目录

    ApacheKudu使用建议与限制... 1

    模式设计的限制... 1

    主键... 1

    单元格... 2

    数据列... 2

    数据行... 2

    数据表... 2

    其它方面的限制... 3

    分区的限制... 3

    扩展的建议和限制... 3

    服务器管理的限制... 4

    群集管理的限制... 4

    复制和备份的限制... 5

    与Impala集成的限制... 5

    创建kudu表时不支持的impala关键词... 5

    与Spark集成的限制... 6

    安全性的限制... 6

    模式设计的限制

    在创建表后,主键不能更改。您必须删除并重新创建一个表来选择一个新列作为主键。

    组成主键的列必须首先在模式设计时最先列出来。

    不能使用更新功能修改行的主键。要修改行的主键,必须删除行,并使用修改后的键重新插入,这样的修改是非原子性的。

    带有DOUBLE、FLOAT或BOOL类型的列不允许作为主键定义的一部分,此外主键定义的所有列都必须是不可为空的。

    不支持自动生成主键。

    组成复合主键的单元格总大小被限制为不能超过16KB,这个大小是由Kudu完成内部组合键编码后的大小。

    单元格

    单个单元格不能大于64KB,而且这个大小是在编码或压缩之前的大小。,组成组合键的单元格被限制为不能超过16KB,这个大小是在Kudu完成内部组合键编码之后的大小。插入不符合这些限制的数据行将导致系统产生错误,并返回给客户端。

    数据列

    默认情况下,Kudu不允许创建超过300列的表。推荐使用更少的列来获得最佳性能的模式设计。

    DECIMAL、CHAR、VARCHAR、DATE和复杂类型(如数组)是不支持的。

    更改表不能更改现有列的类型和是否可为空。

    删除列不会立即回收空间,必须要采用压缩,才能回收空间 。

    数据行

    Kudu主要用于数据分析。尽管单个单元格大小可以多达64KB,而Kudu支持多达300个列,但建议单行不要大于几百KB。如果单行大小达到数千字节数据,可能会遇到问题。

    数据表

    表数据必须有奇数个副本,最大值为7。

    复制因子(在表创建时进行设置)不能更改。

    没有办法手动运行压缩,但删除一个表会立即回收这个表的空间。

    其它方面的限制

    不支持次要索引。

    不支持多行事务。

    不支持关系特性,比如外键。

    像列和表名这样的标识符被限制为有效的UTF-8字符串,最大长度为256个字符。

    如果使用ApacheImpala来查询Kudu表,需要查看Impala集成kudu的限制资料。

    分区的限制

    必须使用简单或复合的主键将表手工预分区为平板。自动拆分目前是不支持的。Kudu不允许在创建分区后再更改分区,除了添加或删除范围分区之外。

    现有表中的数据目前不能自动重新分区。需要建立新的分区,再创建一个新的表,并插入旧表的内容。

    失去大多数副本的平板(比如3个,丢了2个还只有1个)需要人工干预才能修复。

    扩展的建议和限制

    建议最大数量的平板服务器是100台。

    建议最大数量的主节点服务吕是3台。

    每台平板服务器推荐的存储数据(复制副本后和压缩后)的最大数量为8TB。

    建议每台平板服务器的最大平板数量为2000(复制副本后)。

    每台平板服务器的每个数据表的平板最大数量为60个(复制副本后,在创建表时)。

    务器管理的限制

    生产部署应该为平板服务器配置至少4GB的内存,最好在接近数据和平板规模限制时将内存扩充至16GB。

    写入的前置日志(WALs)只能存储在某一个磁盘上。

    磁盘故障是不可容忍的,一旦检测到平板服务器就会崩溃。

    未恢复数据的失败磁盘需要在重新启动之前对该平板服务器的所有Kudu数据进行格式化。

    无法添加/删除数据目录,必须对它们进行重新格式化来更改目录集。

    平板服务器不能做到优雅地退出群集。

    平板服务器不能改变他们的地址或端口。

    Kudu对拥有一个最新的NTP(网络时间协议Network Time    Protocol)有着严格的要求。Kudu的主节点服务器和平板服务器会在不同步的情况下崩溃。

    Kudu发布版本只测试了NTP。其他时间同步提供者(如Chrony)可能不起作用。

    群集管理的限制

    不支持机架感知(在调度任务和分配存储空间时考虑节点的物理位置)。

    不支持多数据中心。

    不支持滚动重启。

    复制和备份的限制

    kudu目前不包括任何内置的备份和恢复功能。鼓励用户使用Spark或Impala等工具导出或导入表

    与Impala集成的限制

    在创建Kudu表时,CREATE table语句必须将主键列放在其他列之前。

    Impala不能更新主键列中的值。

    Impala不能用DECIMAL、VARCHAR或近似这些类型的列创建Kudu表。

    在Impala中用作外部表时,带有大写或非ascii字符名称的Kudu表必须进行重命名,不能包含大写或非ascii字符。

    Kudu表的列名包含大写或非ascii字符,不能用作Impala的外部表。可以将列重命名,以解决这个问题。

    !=和LIKE谓词不被推送到Kudu,而是由Impala扫描节点进行评估。这可能会降低相对于其他类型谓词的性能。

    使用Impala的更新、插入和删除是非事务性的。如果一个查询某些部分失败了,其部分效果将不会回滚。

    单个查询的最大并行度受限于表中的平板数量。为了良好的分析性能,针对大型表的每个主机,建议存放 10个或更多的平板。

    创建kudu表时不支持的impala关键词

    PARTITIONED

    LOCATION

    ROWFORMAT

    与Spark集成的限制

    Spark 2.2(和更高版本)在运行时需要Java 8,尽管Kudu Spark 2.x集成是与Java7兼容的。Spark 2.2是Kudu 1.5.0的默认依赖版本。

    在注册为临时表时,如果kudu表名带有大写或非ascii字符,需要修改kudu表名。

    Kudu表的列名如果包含大写或非ascii字符,不能与SparkSQL一起使用。可以重命名列名,以解决这个问题。

    <>和or谓词没有被推送到Kudu,而是由Spark任务来评估。只有带有后缀通配符的LIKE谓词被推到Kudu。这意味着“FOO%”会被推送到kudu,但是像“FOO%BAR”不会。

    Kudu不能支持Spark SQL所能支持的所有类型。例如,Kudu不支持Date, Decimal和复杂类型。

    Kudu表只能在SparkSQL中注册为临时表。

    不能使用HiveContext查询Kudu表。

    安全性的限制

    空闲时的数据加密功能没有直接构建到Kudu中。通过使用dmcrypt等本地块设备加密软件,可以在空闲时加密Kudu数据。

    授权仅在系统范围的粗粒度级别上可用。表级、列级和行级授权特性不可用。

    Kudu不支持为Kudu流程配置自定义服务主体。主体必须遵循模式kudu/@。

    Kudu与Apache Flume的集成,将不支持写入需要身份验证的Kudu集群。

    由Kudu IPKI生成的服务器证书与bouncycastle版本1.52和更早版本是不兼容的。

    相关文章

      网友评论

        本文标题:Apache Kudu 使用建议与限制

        本文链接:https://www.haomeiwen.com/subject/jdfvhftx.html