按照时间序列数据如何存储在hbase才能提高spark性能

作者: pcqlegend | 来源:发表于2018-03-15 17:57 被阅读0次

按照时间序列数据如何存储在hbase才能提高spark性能
HBase架构简析
opentsdb+hbase的安装部署
原创-spark sql 写入hive较慢原因分析
SPARK表存储格式在HDFS性能比较
spark bulk load hbase 推数
HBase | 架构
Hbase设计原则
Hadoop大数据部门组织架构
HBase 顺序序列rowkey和预分区规则的思考和设计

问题描述：
数据按照key 存储到不同的region，这样spark scan的时候会生成相应数量的分区。如果数据只有一个分区则只有一个executor执行，性能非常差。如果分区后仍不能提高效率，可以在进行一次repartition操作，这样一个机器上会同时又多个executor执行.

只有一个region，然后进行repartition，一个num-extutors =2：

image.png

上图中可以看到，ip都是一个地址，但是是不同的executor。但是每个excutor上最多并行两个task。
多个region：

image.png

按照时间序列数据如何存储在hbase才能提高spark性能
问题描述：数据按照key 存储到不同的region，这样spark scan的时候会生成相应数量的分区。如果数据只...
HBase架构简析
一、HBase架构简介 1、StoreFile HBase数据的存储单元，底层使用HDFS存储。数据按照Cell（...
opentsdb+hbase的安装部署
以下安装部署都是在centos 7系统下安装部署的。 OpenTSDB是基于HBase存储时间序列数据的一...
原创-spark sql 写入hive较慢原因分析
问题现象 hbase表30000条数据，使用spark读取hbase数据，按照某一字段值进行分区，分区数在1000...
SPARK表存储格式在HDFS性能比较
SPARK表存储格式在HDFS性能比较###### 不管是Impala表抑或spark表，数据存储都可以是HDFS...
spark bulk load hbase 推数
spark环境下使用bluk load方式推hbase 背景介绍 Hbase作为一种常用的数据存储工具，对应解决大...
HBase | 架构
hbase架构 hbase是按照列存储的稀疏行/列矩阵hbase支持两种数据版本回收方式：指定个数和指定时间关于...
Hbase设计原则
Hbase存储架构 Hbase通过元数据信息来管理,数据都是通过ReginServer存储在HDFS上 Hbase...
Hadoop大数据部门组织架构
大数据部门组织架构平台组Hadoop Flume Kafka Hbase Spark 框架搭建集群性能测试集群性...
HBase 顺序序列rowkey和预分区规则的思考和设计
以往工作中HBase存储海量数据时候，因为历史原因主键使用自增长序列，数据迁移到HBase中时，并没有改变主键策略...