大数据出现以后,很多公司开始使用hadoop的解决方案,而hadoop只能执行批量处理,并且只能以顺序的方式访问数据,这就意味着要搜索整个数据集,即使是最简单的搜索工作。这就需要一个新的解决方案,能够存储大量的数据,并且能够以随机的方式访问数据的数据库。
HBase, Cassandra, couchDB, Dynamo 和 MongoDB 都是一些存储大量数据和以随机方式访问数据的数据库。
Hbase是一个数据模型,类似于谷歌的大表设计,可以提供快速随机访问海量结构化数据,它利用了Hadoop文件系统提供的容错能力。
它是Hadoop的生态系统,提供对数据的随机实时读/写访问,是Hadoop文件系统的一部分。
HBase 和 HDFS
HBase的存储机制 HBase是一个面向列的数据库,在表中它由行排序。表模式定义只能列族,也就是键值对。一个表有多个列族以及每一个列族可以有任意数量的列。后续列的值连续地存储在磁盘上。表中的每个单元格值都具有时间戳。总之,在一个HBase: 表是行的集合。 行是列族的集合。 列族是列的集合。 列是键值对的集合。 下面给出的表中是HBase模式的一个例子。
网友评论