目录
HBase
它是什么
- Apache HBase™ is the Hadoop database, a distributed, scalable, big data store.
应用场景
- Use Apache HBase™ when you need random, realtime read/write access to your Big Data. This project's goal is the hosting of very large tables -- billions of rows X millions of columns -- atop clusters of commodity hardware.
来源启发
- Apache HBase is an open-source, distributed, versioned, non-relational database modeled after Google's Bigtable: A Distributed Storage System for Structured Data by Chang et al. Just as Bigtable leverages the distributed data storage provided by the Google File System, Apache HBase provides Bigtable-like capabilities on top of Hadoop and HDFS.
GFS
-
GFS = Google File System
-
2003年Google在SOSP发表了《GFS: The Google File System》
-
该论文论述了: 如何在大量廉价机器基础上存储海量数据
MapReduce
-
MapReduce = Map + Reduce
-
2004年Google发表了《MapReduce: Simplified Data Processing on Large Clusters》
-
该论文论述了: MapReduce的编程模型 以及 如何在大量廉价机器上稳定地实现超大规模的并行数据处理
BigTable
-
BigTable是一种分布式数据库
-
2006年Google发表了《BigTable: A Distributed StorageSystem for Structured Data》
-
该论文论述了: 如何解决海量结构化数据的存储 以及 在局部几台服务器崩溃的情况下继续提供高性能的服务
Open Source
Hadoop
-
2004年Doug Cutting和Mike Cafarella在为他们的搜索引擎爬虫Nutch实现分布式架构的时候看到了Google的GFS&MapReduce论文
-
之后的几个月里按照论文实现出一个简易版的HDFS和MapReduce 这也就是Hadoop的最早起源
-
后来他们加入了Yahoo 并在Yahoo真正完善、推广和落地Hadoop大数据
HBase
-
2007年Powerset(现已被Microsoft收购)的研发人员在Google的BigTable论文基础上实现了BigTable的开源版本 即HBase
-
2009年HBase成为Apache顶级项目 即开源的非关系型分布式数据库
网友评论