大师兄的信息化管理学习笔记（十六）：大数据

作者: superkmi | 来源:发表于2023-03-16 19:45 被阅读0次

大师兄的信息化管理学习笔记（六）：数据库与商业智能（二）
大师兄的信息化管理学习笔记（七）：中间件技术
大师兄的信息化管理学习笔记（二）：信息化开发方法
大师兄的信息化管理学习笔记（一）：信息化和信息系统
大师兄的信息化管理学习笔记（三）：计算机网络（一）
大师兄的Python学习笔记(十七）: Mail编程
大师兄的Python源码学习笔记(五十七）: Python的内存
大师兄的信息化管理学习笔记（九）：UML语言
大师兄的数据分析学习笔记(十七）：分类模型(三）
大师兄的Python源码学习笔记(四十七）: Python的内存

一、关于大数据

大数据big data指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

1. 大数据的特征(5V)

特征	描述
大量Volume	数据量大，包括采集、存储和计算的量都非常大
多样Variety	种类和来源多样化。包括结构化、半结构化和非结构化数据
价值Value	数据价值密度相对较低，或者说是浪里淘沙却又弥足珍贵
速度Velocity	数据增长速度快，处理速度也快，时效性要求高
真实性Veracity	来源复杂，要保证数据准确性和可信赖度即数据质量

2. 大数据的应用

互联网行业应用

互联网访问：访问的网站和页面、访问内容、停留时间、访问网页的关联性、购买行为、兴趣点、位置信息、社交信息等。

商品的市场行情监控。

流量、安全预警。

流行疾病预警。

节假日客运流量预告。

传统领域的应用

正在向以数据生产、流通和利用为核心的金融、零售、电信、公共管理、医疗卫生等领域渗透。

其它：

大数据征信

大数据风控

大数据消费金融

大数据财务管理

大数据疾病预测

3. 大数据处理环节

环节	描述
数据准备	从数据源获取数据并进行预处理
数据存储与管理	设计存储模型、存储策略、管理数据
计算处理	大型数据汇总计算
数据分析	专用手段对大数据分析挖掘
知识展现	大数据计算结果可视化

二、Hadoop简介

Hadoop是一个由Apache基金会开发的分布式系统基础架构。
Hadoop已成为大数据平台的事实标准，用户可以再不了解分布式底层细节的情况下，开发分布式程序。
Haddop的核心特性：分布式计算、并行计算
Hadoop的优点：

高效可靠

易于扩展

使用广泛

业界支持

社区活跃

免费开源

1. 分布式文件系统HDFS

2. 分布式计算模型MapReduce

3. Hadoop生态圈

4. Hadoop核心组件

HDFS(Hadoop Distributed File System)：分布式文件系统，为海量的数据提供了存储。高容错性、低部署成本。
MapReduce：一种编程模型，用于大规模数据并行计算。
Hive：数据仓库工具，定义了类似SQL的查询语言(HQL)，将SQL转化为MapReduce任务在Hadoop上执行，通常用于离线分析。
HBase：针对结构化数据的高可靠、高性能、分布式、面向列的NoSQL数据库。
chukwa：开源的大型分布式系统的数据收集系统，构建在HDFS和Map/Reduce框架上。
Spark：基于内存的集群计算技术，专为大规模数据的快速计算而设计。包括Spark SQL、MLLib、Spark Streaming、GraphX等组件。
Sqoop：用于Hadoop与传统数据库进行数据的传递。
Flume：开源日志收集系统，分布式、高可靠、高容错、易于扩展。
kafka：高吞吐量的分布式发布订阅消息系统，可处理海量动作流数据。
Ambari：Hadoop管理工具，可以快捷监控、部署、管理集群。
Zookeeper：分布式写作服务机制，解决分布式环境下的数据管理问题。
Pig：大数据分析脚本语言，将Pig Latin脚本转换为MapReduce任务
Mahout：数据挖掘算法库，包含聚类、分类、推荐引擎等算法。
Storm：分布式实时大数据处理系统，流数据框架。

网友评论

本文标题：大师兄的信息化管理学习笔记（十六）：大数据

本文链接：https://www.haomeiwen.com/subject/kvnpkdtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

大师兄的信息化管理学习笔记（十六）：大数据

一、关于大数据

1. 大数据的特征(5V)

2. 大数据的应用

3. 大数据处理环节

二、Hadoop简介

1. 分布式文件系统HDFS

2. 分布式计算模型MapReduce

3. Hadoop生态圈

4. Hadoop核心组件

相关文章

大师兄的信息化管理学习笔记（六）：数据库与商业智能（二）

大师兄的信息化管理学习笔记（七）：中间件技术

大师兄的信息化管理学习笔记（二）：信息化开发方法

大师兄的信息化管理学习笔记（一）：信息化和信息系统

大师兄的信息化管理学习笔记（三）：计算机网络（一）

大师兄的Python学习笔记(十七）: Mail编程

大师兄的Python源码学习笔记(五十七）: Python的内存

大师兄的信息化管理学习笔记（九）：UML语言

大师兄的数据分析学习笔记(十七）：分类模型(三）

大师兄的Python源码学习笔记(四十七）: Python的内存

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读