[原]HBase Snapshot - 1 - 简介

作者: UniMan | 来源:发表于2017-06-03 09:12 被阅读171次

    作者:clark010
    出处:http://www.jianshu.com/u/f9af3f199145
    版权:本文版权归作者所有
    转载:欢迎转载,但未经作者同意,必须保留此段声明;必须在文章中给出原文连接;否则必究法律责任


    背景

    HBase的snapshot及restore都不涉及文件的移动和拷贝,操作耗时在秒级别;因为底层依赖的HDFS FileSystem不支持硬链接,所以HBase自己实现了一套FileLink的逻辑,每次snapshot都只是进行文件的link而不实际移动数据,而这保证了snapshot操作的效率(虽然不可避免的需要进行一下内存flush,但基本最耗时的消耗都在flush这一下)。下面会通过源码的角度解析一下HBase snapshot的实现。

    ** 本文基于HBase-1.1.2版本代码分析 **

    整个Snapshot相关内容会分为四篇Blog,本文为第一篇


    Snapshot命令行

    • list_snapshots
      • 列出所有已经存在的snapshot
    • snapshot <tableName> <snapshotName> [{SKIP_FLUSH => true}]
      • 对table做snapshot
    • clone_snapshot <snapshotName> <tableName>
      • 通过某一个snapshot clone一个新表
    • restore_snapshot <snapshotName>
      • 从某一个snapshot对表做restore(需要先disable掉相关的hbase表)

    需要注意一下,使用snapshot功能需要在hbase-site.xml打开snapshot开关

    <property>
        <name>hbase.snapshot.enabled</name>
        <value>true</value>
    </property>
    

    更多命令的详细介绍可以参考HBase Wiki


    Snapshot相关存储路径

    /[hbase-root]
        |__ .hbase-snapshot  存储所有snapshot的元信息
            |__ .tmp/  snapshot的workDir,临时数据存放
            |__ [snapshot name]
                |__ .snapshotinfo  snapshot的元信息
                |__ data.manifest  snapshot相关hfile的元信息
        |__ data
            |__ [namespace]  
                |__ [table]
                    |__ .tabledesc
                        |__ .tableinfo.[id]
                    |__ [encode region]
                        |__ .regioninfo
                        |__ [column family]
                            |__ [HFile / Link Files] HBase底层支持HFile及链接文件
                            |__ .links-[regionName]  back reference,用于快速的删除无用的引用文件
                                |__ [ref files]
                        |__ .....
        |__ archive
            |__ data
                |__ [namespace]
                    |__ [table]
                        |__ [encode region]
                            |__ [column family]
                                |__ [HFile / Link Files] 
        |__ WALs / oldWALs / ......
    

    主要Java类

    • Client:
      • HBaseAdmin - 入口类
    • Master:
      • MasterRpcServices - 接收Client端的RPC请求
      • SnapshotManager
      • EnabledTableSnapshotHandler extends TableSnapshotHandler - 在线表
      • DisabledTableSnapshotHandler extends TableSnapshotHandler - 离线表
      • ProcedureCoordinator - 用于提交分布式snapshot事务
      • Procedure
      • ZKProcedureCoordinatorRpcs extends ProcedureCoordinator
      • SnapshotFileCache - 缓存snapshot引用文件,用于判断文件是否deletable
      • SnapshotFileCleaner - 清理snapshot文件线程
    • RegionServer:
      • RegionServerSnapshotManager - 监控分布式任务,并创建管理具体子任务
      • FlushSnapshotSubprocedure
      • RegionSnapshotTask - FlushSnapshotSubprocedure内部类
      • HRegion - 调用snapshot接口,处理具体的snapshot任务
      • SnapshotManifest - Utility class to help read/write the Snapshot Manifest
      • SnapshotManifestV2/SnapshotManifestV1 - SnapshotManifest内存数据结构

    相关文章

      网友评论

        本文标题:[原]HBase Snapshot - 1 - 简介

        本文链接:https://www.haomeiwen.com/subject/tdlntxtx.html