spark操作Hbase表

作者: Tim在路上 | 来源:发表于2019-03-11 10:08 被阅读2次

spark操作Hbase表
hbase shell操作（如建表，清空表，增删改查）
Spark访问与HBase关联的Hive表
Hbase+ES
三、HBase Shell 操作
HBase基本操作以及spark操作HBase
HBase相关文章索引（1）
Spark&Hbase操作
使用 Spark 读写 HBase 数据
原创-spark sql 写入hive较慢原因分析

1. 创建conf和table

var tableName = "httpsystem_dev" 
val conf= HBaseConfiguration.create()
//设置要查询的表
conf.set(TableInputFormat.INPUT_TABLE,tableName)
val table = new HTable(conf,tableName)

2. 通过SparkAPI读取数据

val hbaseRDD = sc.newAPIHadoopRDD(hbaseConfiguration, classOf[TableInputFormat],
        classOf[org.apache.hadoop.hbase.io.ImmutableBytesWritable],
        classOf[org.apache.hadoop.hbase.client.Result])

返回的数据是一个ImmutableBytesWritable,和一个result组成的二元组，result就是一个列表

3. 通过扫描设置相查询数据

var scan = new Scan()
      scan.addFamily(Bytes.toBytes("0"))
      scan.addColumn(Bytes.toBytes("0"), Bytes.toBytes("ML_rule_juge_id"))
      scan.addColumn(Bytes.toBytes("0"), Bytes.toBytes("ML_juge_mal"))
      scan.addColumn(Bytes.toBytes("0"), Bytes.toBytes("ML_juge_type"))
      scan.addColumn(Bytes.toBytes("0"), Bytes.toBytes("DLCNN_juge_mal"))
      scan.addColumn(Bytes.toBytes("0"), Bytes.toBytes("DLCNN_juge_type"))

      //spark读取hbase转换rdd
      var proto = ProtobufUtil.toScan(scan)
      var scanToString = Base64.encodeBytes(proto.toByteArray)
      hbaseConfiguration.set(TableInputFormat.SCAN, scanToString)

4. 将RDD转换为Df


      //rdd返回df
      var rdd = hbaseRDD.map(new org.apache.spark.api.java.function.Function[(ImmutableBytesWritable, Result), Row] {
        override def call(v1: (ImmutableBytesWritable, Result)): Row = {
          var result: Result = v1._2
          var rowkey: String = Bytes.toString(result.getRow)
          var ML_juge_type: String = Bytes.toString(result.getValue(Bytes.toBytes("0"), Bytes.toBytes("ML_juge_type")))
          var ML_rule_juge_id: String = Bytes.toString(result.getValue(Bytes.toBytes("0"), Bytes.toBytes("ML_rule_juge_id")))
          var ML_juge_mal: String = Bytes.toString(result.getValue(Bytes.toBytes("0"), Bytes.toBytes("ML_juge_mal")))
          var DLCNN_juge_type: String = Bytes.toString(result.getValue(Bytes.toBytes("0"), Bytes.toBytes("DLCNN_juge_type")))
          var DLCNN_juge_mal: String = Bytes.toString(result.getValue(Bytes.toBytes("0"), Bytes.toBytes("DLCNN_juge_mal")))

          RowFactory.create(rowkey, ML_rule_juge_id, ML_juge_mal, ML_juge_type, DLCNN_juge_mal, DLCNN_juge_type)
        }
      })

      //创建df
      var df = sparkSession.createDataFrame(rdd, HttpParingSchema.struct)

5.数据的写入

val put = new Put(Bytes.toBytes("rowKey"))
put.add("cf","q","value")

批量写入

val rdd = sc.textFile("/data/produce/2015/2015-03-01.log") v
al data = rdd.map(_.split("\t")).map{x=>(x(0)+x(1),x(2))} 
val result = data.foreachPartition{x => {
val conf= HBaseConfiguration.create();
conf.set(TableInputFormat.INPUT_TABLE,"data");
conf.set("hbase.zookeeper.quorum","slave5,slave6,slave7");
conf.set("hbase.zookeeper.property.clientPort","2181");
conf.addResource("/home/hadoop/data/lib/hbase-site.xml");
val table = new HTable(conf,"data");
table.setAutoFlush(false,false);
table.setWriteBufferSize(3*1024*1024);
x.foreach{y => { var put= new Put(Bytes.toBytes(y._1));
put.add(Bytes.toBytes("v"),Bytes.toBytes("value"),Bytes.toBytes(y._2));table.put(put)
};
table.flushCommits}}}

6.使用Bulkload插入数据

val conf = HBaseConfiguration.create(); 
val tableName = "data1" val table = new HTable(conf,tableName)
conf.set(TableOutputFormat.OUTPUT_TABLE,tableName) 
lazy val job = Job.getInstance(conf)
job.setMapOutputKeyClass(classOf[ImmutableBytesWritable])
job.setMapOutputValueClass(classOf[KeyValue])
HFileOutputFormat.configureIncrementalLoad(job,table) 
val rdd = sc.textFile("/data/produce/2015/2015-03-01.log").map(_.split("@")).map{x => (DigestUtils.md5Hex(x(0)+x(1)).substring(0,3)+x(0)+x(1),x(2))}.sortBy(x =>x._1).map{x=>{val kv:KeyValue = new KeyValue(Bytes.toBytes(x._1),Bytes.toBytes("v"),Bytes.toBytes("value"),Bytes.toBytes(x._2+""));
(new ImmutableBytesWritable(kv.getKey),kv)}}
rdd.saveAsNewAPIHadoopFile("/tmp/data1",classOf[ImmutableBytesWritable],classOf[KeyValue],classOf[HFileOutputFormat],job.getConfiguration()) 
val bulkLoader = new LoadIncrementalHFiles(conf)
bulkLoader.doBulkLoad(new Path("/tmp/data1"),table)

spark操作Hbase表
1. 创建conf和table 2. 通过SparkAPI读取数据返回的数据是一个ImmutableBytesW...
hbase shell操作（如建表，清空表，增删改查）
hbase操做 hbase web操作 hbase shell 基本操作： 1）建表具体命令 2）建表后查看表：...
Spark访问与HBase关联的Hive表
Spark访问与Hbase关联的Hive表需要引用jar 包 hive-hbase-handler-
Hbase+ES
Hbase学习一 :动手搭建环境到 Hbase的各种操作(关于建表的操作) 二：HBASE原理学习一：目录：...
三、HBase Shell 操作
一、基本操作二、表的操作三、 HBase多版本操作：
HBase基本操作以及spark操作HBase
HBase是建立在HDFS之上，提供高可靠性、高性能、列存储、可伸缩、实时读写的数据库系统。特点：表可以很大：一...
HBase相关文章索引（1）
工具资源利用phoenix进行Hbase数据访问在SQUIRREL中使用PHOENIX操作HBASE——创建表...
Spark&Hbase操作
HBase 新版 API 进行 CRUD 基本操作配置环境 Hbase基本操作新版 API 中加入了 Connec...
使用 Spark 读写 HBase 数据
Use Spark to read and write HBase data 启动 hbase 在 HBase 中...
原创-spark sql 写入hive较慢原因分析
问题现象 hbase表30000条数据，使用spark读取hbase数据，按照某一字段值进行分区，分区数在1000...

spark操作Hbase表

1. 创建conf和table

2. 通过SparkAPI读取数据

3. 通过扫描设置相查询数据

4. 将RDD转换为Df

5.数据的写入

6.使用Bulkload插入数据

相关文章

spark操作Hbase表

hbase shell操作（如建表，清空表，增删改查）

Spark访问与HBase关联的Hive表

Hbase+ES

三、HBase Shell 操作

HBase基本操作以及spark操作HBase

HBase相关文章索引（1）

Spark&Hbase操作

使用 Spark 读写 HBase 数据

原创-spark sql 写入hive较慢原因分析

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

大数据爬虫Python AI Sql

hadoop 大数据底层理解

大数据，机器学习，人工智能

大数据

玩转大数据

大数据专题