尚硅谷大数据技术之HBase

作者: 尚硅谷教育 | 来源:发表于2018-12-12 10:19 被阅读1次

尚硅谷大数据技术之HBase
尚硅谷大数据技术之HBase
尚硅谷大数据技术之HBase
尚硅谷大数据技术之HBase
尚硅谷大数据技术之HBase
尚硅谷大数据技术之HBase
尚硅谷大数据技术之HBase
尚硅谷大数据技术之HBase
尚硅谷大数据技术之HBase
尚硅谷大数据技术之HBase

6.3 MapReduce
通过HBase的相关JavaAPI，我们可以实现伴随HBase操作的MapReduce过程，比如使用MapReduce将数据从本地文件系统导入到HBase的表中，比如我们从HBase中读取一些原始数据后使用MapReduce做数据分析。
6.3.1 官方HBase-MapReduce
1．查看HBase的MapReduce任务的执行
$bin/hbase mapredcp 2．环境变量的导入（1）执行环境变量的导入（临时生效，在命令行执行下述操作）$ export HBASE_HOME=/opt/module/hbase-1.3.1
$export HADOOP_HOME=/opt/module/hadoop-2.7.2$ export HADOOP_CLASSPATH=${HBASE_HOME}/bin/hbase mapredcp

（2）永久生效：在/etc/profile配置
export HBASE_HOME=/opt/module/hbase-1.3.1
export HADOOP_HOME=/opt/module/hadoop-2.7.2
并在hadoop-env.sh中配置：（注意：在for循环之后配）
export HADOOP_CLASSPATH= $HADOOP_CLASSPATH:/opt/module/hbase/lib/* 3．运行官方的MapReduce任务 -- 案例一：统计Student表中有多少行数据$ /opt/module/hadoop-2.7.2/bin/yarn jar lib/hbase-server-1.3.1.jar rowcounter student

-- 案例二：使用MapReduce将本地数据导入到HBase
1）在本地创建一个tsv格式的文件：fruit.tsv
1001 Apple Red
1002 Pear Yellow
1003 Pineapple Yellow

2）创建HBase表
hbase(main):001:0> create 'fruit','info'

3）在HDFS中创建input_fruit文件夹并上传fruit.tsv文件
$/opt/module/hadoop-2.7.2/bin/hdfs dfs -mkdir /input_fruit/$ /opt/module/hadoop-2.7.2/bin/hdfs dfs -put fruit.tsv /input_fruit/

4）执行MapReduce到HBase的fruit表中
$ /opt/module/hadoop-2.7.2/bin/yarn jar lib/hbase-server-1.3.1.jar importtsv
-Dimporttsv.columns=HBASE_ROW_KEY,info:name,info:color fruit
hdfs://hadoop102:9000/input_fruit

5）使用scan命令查看导入后的结果
hbase(main):001:0> scan ‘fruit’
6.3.2 自定义HBase-MapReduce1
目标：将fruit表中的一部分数据，通过MR迁入到fruit_mr表中。
分步实现：
1．构建ReadFruitMapper类，用于读取fruit表中的数据
package com.atguigu;

import java.io.IOException;
import org.apache.hadoop.hbase.Cell;
import org.apache.hadoop.hbase.CellUtil;
import org.apache.hadoop.hbase.client.Put;
import org.apache.hadoop.hbase.client.Result;
import org.apache.hadoop.hbase.io.ImmutableBytesWritable;
import org.apache.hadoop.hbase.mapreduce.TableMapper;
import org.apache.hadoop.hbase.util.Bytes;

public class ReadFruitMapper extends TableMapper<ImmutableBytesWritable, Put> {

@Override
protected void map(ImmutableBytesWritable key, Result value, Context context) 
throws IOException, InterruptedException {
//将fruit的name和color提取出来，相当于将每一行数据读取出来放入到Put对象中。
    Put put = new Put(key.get());
    //遍历添加column行
    for(Cell cell: value.rawCells()){
        //添加/克隆列族:info
        if("info".equals(Bytes.toString(CellUtil.cloneFamily(cell)))){
            //添加/克隆列：name
            if("name".equals(Bytes.toString(CellUtil.cloneQualifier(cell)))){
                //将该列cell加入到put对象中
                put.add(cell);
                //添加/克隆列:color
            }else if("color".equals(Bytes.toString(CellUtil.cloneQualifier(cell)))){
                //向该列cell加入到put对象中
                put.add(cell);
            }
        }
    }
    //将从fruit读取到的每行数据写入到context中作为map的输出
    context.write(key, put);
}

}
2．构建WriteFruitMRReducer类，用于将读取到的fruit表中的数据写入到fruit_mr表中
package com.atguigu.hbase_mr;

import java.io.IOException;
import org.apache.hadoop.hbase.client.Put;
import org.apache.hadoop.hbase.io.ImmutableBytesWritable;
import org.apache.hadoop.hbase.mapreduce.TableReducer;
import org.apache.hadoop.io.NullWritable;

public class WriteFruitMRReducer extends TableReducer<ImmutableBytesWritable, Put, NullWritable> {
@Override
protected void reduce(ImmutableBytesWritable key, Iterable<Put> values, Context context)
throws IOException, InterruptedException {
//读出来的每一行数据写入到fruit_mr表中
for(Put put: values){
context.write(NullWritable.get(), put);
}
}
}

本教程由尚硅谷教育大数据研究院出品，如需转载请注明来源，欢迎大家关注尚硅谷公众号（atguigu）了解更多。

尚硅谷大数据技术之HBase
6.4 与Hive的集成6.4.1 HBase与Hive的对比1．Hive(1) 数据仓库Hive的本质其实就相当...
尚硅谷大数据技术之HBase
第7章 HBase优化 7.1 高可用在HBase中Hmaster负责监控RegionServer的生命周期，均...
尚硅谷大数据技术之HBase
第8章 Hbase实战之谷粒微博8.1 需求分析微博内容的浏览，数据库表设计用户社交体现：关注用户，取关用户 ...
尚硅谷大数据技术之HBase
6.3 MapReduce通过HBase的相关JavaAPI，我们可以实现伴随HBase操作的MapReduce过...
尚硅谷大数据技术之HBase
3．构建Fruit2FruitMRRunner extends Configured implements Too...
尚硅谷大数据技术之HBase
第1章 HBase简介1.1 什么是HBaseHBase的原型是Google的BigTable论文，受到了该论文思...
尚硅谷大数据技术之HBase
1.3 HBase中的角色1.3.1 HMaster功能1．监控RegionServer2．处理RegionSer...
尚硅谷大数据技术之HBase
第2章 HBase安装 2.1 Zookeeper正常部署首先保证Zookeeper集群的正常部署，并启动之： ...
尚硅谷大数据技术之HBase
第3章 HBase Shell操作 3.1 基本操作 1．进入HBase客户端命令行 [atguigu@hadoo...
尚硅谷大数据技术之HBase
4.4 Time Stamp HBASE 中通过rowkey和columns确定的为一个存贮单元称为cell。每个...

尚硅谷大数据技术之HBase

相关文章