大数据平台基础架构和常用处理工具

大数据平台基础架构和常用处理工具

作者: jackLee | 来源:发表于2016-11-07 17:24 被阅读308次

主要包括如下部分内容：

大数据在线分析处理和常用工具
大数据离线处理和常用工具

数据流

数据的收集-->数据的传输-->数据的处理--->数据的处理

大数据在线分析处理

大数据在线分析处理的特点
- 数据源源不断的到来
- 数据需要尽快的得到处理，不产生积压不产生数据丢失
- 数据量巨大
- 处理的结果尽快展现
  以上四个特点可以总结为：数据的收集-->数据的传输--->数据的处理--->数据存储&&展现。

其中数据的处理一般设计数据的聚合，数据处理和展现都是秒级或毫秒级

针对这些问题目前形成了Flume+kafka+stom/Spark+habse/redis的技术架构解决方案。

Flume：专注于大数据的收集和传输。
- Flume的特点：支持多种数据源并且输出到多种数据源，支持多种数据格式
- 可以多个Agent相连构成Agent链
- Flume源源不断的收集日志
- 参考文档：使用 Flume 部署和管理可扩展的 Web 服务

Hadoop V1到Hadoop V2

Hive介绍

Hive是一种以SQL风格进行任何大小数据分析的工具，其特点是采取类似关系数据库的SQL命令。其特点是通过SQL处理Hadoop的大数据，数据规模可以伸缩扩展到100PB+，数据形式可以是结构或非结构数据。
Hive是一种数据仓库，而Hbase是一种分布式的数据库
Hive组织数据包含四种层次：DataBase --> Table --> Partition --> Bucket，对应在HDFS上都是文件夹形式
HQL最终转换为MapReduce执行

Hive架构图1

Hive架构图2

参考资料

相关文章

网友评论

我爱编程

本文标题：大数据平台基础架构和常用处理工具

本文链接：https://www.haomeiwen.com/subject/ixmouttx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

我爱编程

关于我们|服务条款|联系我们|大数据平台基础架构和常用处理工具 |投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！