一、关于大数据
- 大数据big data指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
1. 大数据的特征(5V)
特征 | 描述 |
---|---|
大量Volume | 数据量大,包括采集、存储和计算的量都非常大 |
多样Variety | 种类和来源多样化。包括结构化、半结构化和非结构化数据 |
价值Value | 数据价值密度相对较低,或者说是浪里淘沙却又弥足珍贵 |
速度Velocity | 数据增长速度快,处理速度也快,时效性要求高 |
真实性Veracity | 来源复杂,要保证数据准确性和可信赖度即数据质量 |
2. 大数据的应用
- 互联网行业应用
- 互联网访问: 访问的网站和页面、访问内容、停留时间、访问网页的关联性、购买行为、兴趣点、位置信息、社交信息等。
- 商品的市场行情监控。
- 流量、安全预警。
- 流行疾病预警。
- 节假日客运流量预告。
- 传统领域的应用
- 正在向以数据生产、流通和利用为核心的金融、零售、电信、公共管理、医疗卫生等领域渗透。
- 其它:
- 大数据征信
- 大数据风控
- 大数据消费金融
- 大数据财务管理
- 大数据疾病预测
3. 大数据处理环节
环节 | 描述 |
---|---|
数据准备 | 从数据源获取数据并进行预处理 |
数据存储与管理 | 设计存储模型、存储策略、管理数据 |
计算处理 | 大型数据汇总计算 |
数据分析 | 专用手段对大数据分析挖掘 |
知识展现 | 大数据计算结果可视化 |
二、Hadoop简介
- Hadoop是一个由Apache基金会开发的分布式系统基础架构。
- Hadoop已成为大数据平台的事实标准,用户可以再不了解分布式底层细节的情况下,开发分布式程序。
- Haddop的核心特性:分布式计算、并行计算
- Hadoop的优点:
- 高效可靠
- 易于扩展
- 使用广泛
- 业界支持
- 社区活跃
- 免费开源
1. 分布式文件系统HDFS
2. 分布式计算模型MapReduce
3. Hadoop生态圈
4. Hadoop核心组件
- HDFS(Hadoop Distributed File System):分布式文件系统,为海量的数据提供了存储。高容错性、低部署成本。
- MapReduce:一种编程模型,用于大规模数据并行计算。
- Hive:数据仓库工具,定义了类似SQL的查询语言(HQL),将SQL转化为MapReduce任务在Hadoop上执行,通常用于离线分析。
- HBase:针对结构化数据的高可靠、高性能、分布式、面向列的NoSQL数据库。
- chukwa:开源的大型分布式系统的数据收集系统,构建在HDFS和Map/Reduce框架上。
- Spark:基于内存的集群计算技术,专为大规模数据的快速计算而设计。包括Spark SQL、MLLib、Spark Streaming、GraphX等组件。
- Sqoop:用于Hadoop与传统数据库进行数据的传递。
- Flume:开源日志收集系统,分布式、高可靠、高容错、易于扩展。
- kafka:高吞吐量的分布式发布订阅消息系统,可处理海量动作流数据。
- Ambari:Hadoop管理工具,可以快捷监控、部署、管理集群。
- Zookeeper:分布式写作服务机制,解决分布式环境下的数据管理问题。
- Pig:大数据分析脚本语言,将Pig Latin脚本转换为MapReduce任务
- Mahout:数据挖掘算法库,包含聚类、分类、推荐引擎等算法。
- Storm:分布式实时大数据处理系统,流数据框架。
网友评论