美文网首页hadoop
Hadoop(一):Hadoop概述

Hadoop(一):Hadoop概述

作者: codeMover | 来源:发表于2021-11-30 20:48 被阅读0次

    大数据概念

    大数据:指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合;需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。
    大数据主要解决:海量数据的采集、存储和分析计算问题。
    bit-->byte-->kb-->mb-->gb-->tb-->pb-->eb-->zb-->yb

    大数据特点

    Volume(大量化)

    截止目前,人类生产的所有印刷资料的数据量是200pb,而历史上全人类总共说话的话大约是5eb。当前,典型个人计算机硬盘的容量为TB级别,而一些大数据企业的数据量已经接近EB数量级。

    Volocity(速度化)

    这是大数据区分于传统数据挖掘的最显著特征。根据IDC的“数字宇宙报告”,预计到2025年,处理海量数据的效率就是企业的生命。

    Variety(多样化)

    这种类型的多样化也让数据被分为结构化数据和非结构化数据。相对于以往便于存储的以数据库/文本为主的结构化数据,非结构化数据越来越多,包括网络日志、音频、视频、图片、地理位置等,这些多类型的数据对数据处理能力提出了更高要求。

    Value(低价值密度)

    低价值密度的高低与数据总量的带下成反比。如何快速对现有价值数据“提纯”成为大数据背景下待解决的难题。

    大数据应用场景

    • 抖音、B站等内容推荐
    • 电商站内广告推荐
    • 零售货品排列
    • 物流仓储,仓库货物存放、线路车辆排班
    • 保险、金融、房产
    • 人工智能+5G+物联网+虚拟现实
    • ......

    Hadoop是什么

    0)创始人Doug Cutting;
    1)成长过程:Lucene–>Nutch—>Hadoop
    2)Hadoop是一个由Apache基金会所开发的分布式系统基础架构;
    3)主要解决海量数据的存储和分析计算问题;
    4)广义上讲,Hadoop通常是指一个广泛的概念(Hadoop生态圈,hadoop、zk、hive等)
    5)Hadoop起源于Google的三大论文,具体见下表

    描述 演变
    GFS Google的分布式文件系统Google File System HDFS
    MapReduce Google的MapReduce开源分布式并行计算框架 MapReduce
    BigTable 一个大型的分布式数据库 HBase

    Hadoop三大发行版本

    • Apache:最原始的版本,所有发行版均基于这个版本进行改进
    • CDH:Cloudera’s Distribution Including Apache Hadoop,简称CDH
    • CDP:Cloudera推出了新一代的数据平台产品CDP Data Center,简称CDP

    Hadoop优缺点

    优点:

    • 高可靠:hadoop底层维护多个数据副本,所以即使hadoop某个计算元素或存储出现故障,也不会导致数据丢失。
    • 高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点。
    • 高效性:在MapReduce的思想下,Hadoop是兵法工作的,以加快任务处理速度。
    • 高容错性:能够自动将失败的任务重新分配。

    缺点:

    • Hadoop(hdfs)不适用于低延迟数据访问
    • Hadoop(NameNode)不能高效存储大量小文件
    • Hadoop不支持多用户写入并任意修改文件,只能追加文件

    小结

    GFS、MapReduce和BigTable是Google的三种大数据处理系统,在Hadoop中就实现了其中的两种(GFS\MapReduce)。
    Hadoop的学习是大数据入门的基础。本篇简短介绍了大数据及hadoop相关概述,理解相关概念对后面MapReduce和HDFS学习有很大帮助。

    引用:

    hadoop优缺点

    相关文章

      网友评论

        本文标题:Hadoop(一):Hadoop概述

        本文链接:https://www.haomeiwen.com/subject/xbtjxrtx.html