美文网首页我爱编程
大数据平台基础架构和常用处理工具

大数据平台基础架构和常用处理工具

作者: jackLee | 来源:发表于2016-11-07 17:24 被阅读308次

    主要包括如下部分内容:

    • 大数据在线分析处理和常用工具
    • 大数据离线处理和常用工具

    数据流

    数据的收集-->数据的传输-->数据的处理--->数据的处理

    大数据在线分析处理

    • 大数据在线分析处理的特点
      • 数据源源不断的到来
      • 数据需要尽快的得到处理,不产生积压不产生数据丢失
      • 数据量巨大
      • 处理的结果尽快展现
        以上四个特点可以总结为:数据的收集-->数据的传输--->数据的处理--->数据存储&&展现。

    其中数据的处理一般设计数据的聚合,数据处理和展现都是秒级或毫秒级

    针对这些问题目前形成了Flume+kafka+stom/Spark+habse/redis的技术架构解决方案。

    • Flume:专注于大数据的收集和传输。
    Hadoop V1到Hadoop V2
  1. Hive介绍

    • Hive是一种以SQL风格进行任何大小数据分析的工具,其特点是采取类似关系数据库的SQL命令。其特点是通过SQL处理Hadoop的大数据,数据规模可以伸缩扩展到100PB+,数据形式可以是结构或非结构数据。
    • Hive是一种数据仓库,而Hbase是一种分布式的数据库
    • Hive组织数据包含四种层次:DataBase --> Table --> Partition --> Bucket,对应在HDFS上都是文件夹形式
    • HQL最终转换为MapReduce执行
  2. Hive架构图1 Hive架构图2

    参考资料

    相关文章

      网友评论

        本文标题:大数据平台基础架构和常用处理工具

        本文链接:https://www.haomeiwen.com/subject/ixmouttx.html