提到大数据必然会提到Hadoop,Hadoop是一个由Apache基金会所开发的分布式系统基础架构。而Hadoop最核心的设计就是:HDFS(存储)和MapReduce(计算)。 下面是大数据的各种框架工具分类:
大数据存储框架:帮用户将海量数据分布式存储在机器上
HDFS ——分布式文件存储系统(HADOOP中的存储框架)
HBASE ——分布式数据库系统
KAFKA ——分布式消息缓存系统(实时流式数据处理场景中应用广泛)
大数据运算框架:帮用户将处理逻辑在很多机器上并行
MAPREDUCE——离线批处理/HADOOP中的运算框架
SPARK —— 离线批处理/实时流式计算
STORM ——实时流式计算
辅助类的工具:解放大数据工程师的一些繁琐工作
HIVE ——数据仓库工具:可以接收sql,翻译成mapreduce或者spark程序运行
FLUME ——数据采集
SQOOP ——数据迁移
ELASTIC SEARCH ——分布式的搜索引擎
......
网友评论