大数据的架构介绍
日志采集为例(流程如下图所示)
image.png
需要的模块和组件
1.用户的app (上报日志)
2.log recv server (接收日志服务)
3.hdfs 集群 (保存日志)
4.kafka 集群
5.zookeeper 集群
6.flume (日志收集组件)
7.hive
8.hive server2 - HiveServer2 (HS2) is a server interface that enables remote clients to execute queries against Hive and retrieve the results
9.web server (客户查看日志统计分析结果的平台)
整个流程为
1.app 记录用户的行为log,在适当的时候,将日志发送到日志收集服务器(log-recv-server)
2.日志收集服务器 将日志提交到 kafka
3.flume 读取kafka 的日志并保存到 hdfs 中
4.通过定时任务(linux cron) 定时load 数据到 hive 中
5.B端用户 通过web端访问获取数据,通过hive-server2 查询hive 的数据。
次架构的不足之处
1.定时任务,有时间间隔,数据统计结果的延迟大
2.hive 的查询 耗时比较长。
网友评论