序
flume是一个分布式 可靠的和高可用的海量日志采集 聚合和传输的系统.支持在系统中定制各类数据发送方,用于收集数据;同事,flume提供对数据进行简单处理,并写到各种数据接收方(可定制)的能力.flume有OG和NG两个大的版本.
flume以agent为最小的独立运行单位.一个agent就是一个jvm,单agent由source sink和channel三大组件构成.
前言
第一章 认识apache hadoop和apache hbase
apache hadoop是一个高度可扩展的 容错的分布式系统,它可以存储海量数据,并且可以恰当地处理这些数据.hadoop的设计理念是存储数据的同一个集群上,运行大规模处理系统.hadoop的设计哲学是将所有的数据存储在一个地方,并且在同一个地方处理数据,也就是说,将处理移动到数据存储,而不是将数据移动到处理系统.
apache hbase是构建在hadoop上的,提供键值存储的数据库系统,其得益于hadoop提供的分布式框架.
数据一旦写入hadoop分布式文件系统(hdfs)就不可改变.hbase支持对任何写入数据的更新操作.
hdfs基于用户配置的复制因子(默认是3),复制所有写入数据.以降低数据发生丢失的可能性.
hdfs有namenode和datanode(存储数据)两种服务器.
客户端api是用户与hdfs交互的一种方式.hdfs还提供了一组可用于操作一般文件的shell命令.
hdfs的数据格式可划分为可拆分的和不可拆分的两种格式.
写数据到hdfs时,使用二进制格式(常见的格式是avro)是比纯文本更好的选择.
mapreduce是一个分布式处理框架,允许用户编写Java代码从HDFS读取并处理数据.mapreduce程序有map和reduce两个阶段.
apache hive和cloudera impala提供SQL韩接口处理hdfs数据.
apache hbase是hadoop生态系统中的键值对存储.它建立在hdfs上并且以来与hdfs的副本机制.
hbase提供基于单行数据操作的原子性保证.
hbase将整个数据集划分为region(两个固定值之间行键的组合),每个region由region server的服务托管.
flume允许用户在hbase中写入数据或增量计数.
网友评论