美文网首页我爱编程
Hadoop(一)初识大数据和Hadoop

Hadoop(一)初识大数据和Hadoop

作者: currynie | 来源:发表于2018-05-24 11:07 被阅读0次

    原文地址:http://www.cnblogs.com/zhangyinhua/p/7647334.html
    注:本系列为Hadoop学习笔记,非原创

    大数据基础

    一、什么是大数据?

    (1) 一种规模大到在获取、存储、管理、分析方面都大大超 过传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低的四大特征。
    (2)大数据技术的战略不在于掌握庞大的数据信息,而在于对含有意义的数据进行专业化处理。

    二、大数据的基本特征?

    容量(Volume)、种类(Variety)、价值(Value)、速度(Velocity)

    三、大数据的架构

    大数据系统架构.png

    四、大数据处理平台

    大数据平台.png

    五、大数据的几个概念

    集群(Cluster)数据密集型(DIC)计算密集型(CIC)
    向上扩展(Scale-up):对硬件的扩展。主要是对cpu、内存、磁盘的扩展。
    向外扩展(Scale-out):通过计算机群的方式来提高计算能力。主要是对服务器个数的扩展。
    机器学习(Machine Learning)
    云计算(Cloud Coumputing):通过互联网来提供动态易扩展且虚拟化的资源


    Hadoop概述

    一、什么是hadoop?

    (1)一种分布式系统基础框架;
    (2)核心设计:分布式文件系统HDFS和分布式处理框架MapReduce。HDFS为海量数据提供分布式存储,MapReduce为海量数据提供分布式计算;

    二、Hadoop发展历程

    hadoop发展历程.png

    三、Hadoop生态圈

    (1)核心项目
    Hadoop common(如系统配置工具Configuration、远程过程调用RPC序列化机制、抽象文件系统FileSytem等)
    MapReduce、HDFS
    (2)其他项目
    面向具体领域或应用:mahout、X-Rime、Crissbow、lvory等
    数据交换、工作流等外围支持系统:Chukwa、Flume、Sqoop、Ooize等
    Hbase:
    1、一个分布式的面向列的数据库;
    2、构建在HDFS之上;
    3、适用于Hadoop应用需要实时读写随机访问非常大型数据集。
    Zookeeper:
    1、一个分布式服务框架,解决分布式计算的一致性问题(如统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等);
    2、其他Hadoop相关项目的主要组件。
    Apache Pig:
    1、一种数据流语言和运行环境,用于检索非常大量的数据;
    2、运行于HDFS和MapReduce集群上。
    Apache Hive:
    1、最早Facebook设计,建立在Hadoop基础上的数据仓库框架;
    2、管理HDFS中存储的数据,并提供SQL语言查询数据。
    Apache Flume:
    1、一个高可用、高可靠、分布式的海量数据采集、聚合和传输的系统,经常用于日志采集器。
    Apache Sqoop:
    1、SQL-to-Hadoop的缩写,主要用于结构化数据存储和Hadoop间的数据转换;
    2、一种在数据库和HDFS间高效传输数据的工具。
    mahout:
    1、一个机器学习和数据挖掘的库,用于聚类、回归测试和统计建模等常见算法的MapReduce的实现。
    Ambari:
    1、Hadoop管理工具,用于监控、部署、管理集群。

    相关文章

      网友评论

        本文标题:Hadoop(一)初识大数据和Hadoop

        本文链接:https://www.haomeiwen.com/subject/avthjftx.html