美文网首页
大数据架构演变 (1)

大数据架构演变 (1)

作者: 良人与我 | 来源:发表于2019-05-13 22:02 被阅读0次

    大数据的架构介绍
    日志采集为例(流程如下图所示)


    image.png

    需要的模块和组件

    1.用户的app (上报日志)
    2.log recv server (接收日志服务)
    3.hdfs 集群 (保存日志)
    4.kafka 集群
    5.zookeeper 集群
    6.flume (日志收集组件)
    7.hive
    8.hive server2 - HiveServer2 (HS2) is a server interface that enables remote clients to execute queries against Hive and retrieve the results
    9.web server (客户查看日志统计分析结果的平台)

    整个流程为

    1.app 记录用户的行为log,在适当的时候,将日志发送到日志收集服务器(log-recv-server)
    2.日志收集服务器 将日志提交到 kafka
    3.flume 读取kafka 的日志并保存到 hdfs 中
    4.通过定时任务(linux cron) 定时load 数据到 hive 中
    5.B端用户 通过web端访问获取数据,通过hive-server2 查询hive 的数据。

    次架构的不足之处

    1.定时任务,有时间间隔,数据统计结果的延迟大
    2.hive 的查询 耗时比较长。

    相关文章

      网友评论

          本文标题:大数据架构演变 (1)

          本文链接:https://www.haomeiwen.com/subject/wnfqaqtx.html