美文网首页
大师兄的信息化管理学习笔记(十六):大数据

大师兄的信息化管理学习笔记(十六):大数据

作者: superkmi | 来源:发表于2023-03-16 19:45 被阅读0次

    大师兄的信息化管理学习笔记(十五):软件质量与软件维护

    一、关于大数据

    • 大数据big data指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产
    1. 大数据的特征(5V)
    特征 描述
    大量Volume 数据量大,包括采集、存储和计算的量都非常大
    多样Variety 种类和来源多样化。包括结构化、半结构化和非结构化数据
    价值Value 数据价值密度相对较低,或者说是浪里淘沙却又弥足珍贵
    速度Velocity 数据增长速度快,处理速度也快,时效性要求高
    真实性Veracity 来源复杂,要保证数据准确性和可信赖度即数据质量
    2. 大数据的应用
    • 互联网行业应用
    • 互联网访问: 访问的网站和页面、访问内容、停留时间、访问网页的关联性、购买行为、兴趣点、位置信息、社交信息等。
    • 商品的市场行情监控。
    • 流量、安全预警。
    • 流行疾病预警。
    • 节假日客运流量预告。
    • 传统领域的应用
    • 正在向以数据生产、流通和利用为核心的金融、零售、电信、公共管理、医疗卫生等领域渗透。
    • 其它:
    • 大数据征信
    • 大数据风控
    • 大数据消费金融
    • 大数据财务管理
    • 大数据疾病预测
    3. 大数据处理环节
    环节 描述
    数据准备 从数据源获取数据并进行预处理
    数据存储与管理 设计存储模型、存储策略、管理数据
    计算处理 大型数据汇总计算
    数据分析 专用手段对大数据分析挖掘
    知识展现 大数据计算结果可视化

    二、Hadoop简介

    • Hadoop是一个由Apache基金会开发的分布式系统基础架构。
    • Hadoop已成为大数据平台的事实标准,用户可以再不了解分布式底层细节的情况下,开发分布式程序。
    • Haddop的核心特性:分布式计算、并行计算
    • Hadoop的优点:
    • 高效可靠
    • 易于扩展
    • 使用广泛
    • 业界支持
    • 社区活跃
    • 免费开源
    1. 分布式文件系统HDFS
    2. 分布式计算模型MapReduce
    3. Hadoop生态圈
    4. Hadoop核心组件
    • HDFS(Hadoop Distributed File System):分布式文件系统,为海量的数据提供了存储。高容错性、低部署成本。
    • MapReduce:一种编程模型,用于大规模数据并行计算。
    • Hive:数据仓库工具,定义了类似SQL的查询语言(HQL),将SQL转化为MapReduce任务在Hadoop上执行,通常用于离线分析。
    • HBase:针对结构化数据的高可靠、高性能、分布式、面向列的NoSQL数据库。
    • chukwa:开源的大型分布式系统的数据收集系统,构建在HDFS和Map/Reduce框架上。
    • Spark:基于内存的集群计算技术,专为大规模数据的快速计算而设计。包括Spark SQL、MLLib、Spark Streaming、GraphX等组件。
    • Sqoop:用于Hadoop与传统数据库进行数据的传递。
    • Flume:开源日志收集系统,分布式、高可靠、高容错、易于扩展。
    • kafka:高吞吐量的分布式发布订阅消息系统,可处理海量动作流数据。
    • Ambari:Hadoop管理工具,可以快捷监控、部署、管理集群。
    • Zookeeper:分布式写作服务机制,解决分布式环境下的数据管理问题。
    • Pig:大数据分析脚本语言,将Pig Latin脚本转换为MapReduce任务
    • Mahout:数据挖掘算法库,包含聚类、分类、推荐引擎等算法。
    • Storm:分布式实时大数据处理系统,流数据框架。

    相关文章

      网友评论

          本文标题:大师兄的信息化管理学习笔记(十六):大数据

          本文链接:https://www.haomeiwen.com/subject/kvnpkdtx.html