学习目标
1.大数据基本概念基本技术
2.MaxCompute特点和使用场景
3.MaxCompute基本概念
4.MaxCompute基础架构
大数据
什么是大数据
无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
为什么有大数据
- 数据增长
- 数据资产观念
- 存储技术和计算能力
大数据特点
- Volume
- Variety
- Value
- Velocity
大数据存储技术
分布式文件系统
- 分布式
- 冗余备份
大数据计算技术
- 批处理
- 流式计算
- 交互式数据分析
- 分布式机器学习
大数据的处理思路
- 化简
- 拆分
云计算与大数据
云计算是计算能力
大数据是内容
MaxCompute
MaxCompute是什么
提供海量数据的实时性要求不高的分布式处理能力。
适用于商业智能、数据分析、数据挖掘等领域。
MaxCompute技术特点
- 分布式
- 安全性
- 易用性
- 权限控制
基本概念
- 项目空间 Project
- 表 Table
- 分区 Partition
- 任务 Task
- 资源 Resource
- 实例 Instance
- 配额 Quota
使用场景
- 基于SQL构建大规模数据仓库系统和BI系统
- 基于DAG/Graph构建大型分布式应用系统
- 基于统计和机器学习的大数据统计和数据挖掘
MaxCompute基础架构
结构图
- 客户端
- 接入层
- 逻辑层
- 计算层
客户端
用户通过各种方式发起请求:
- RESTful API
- Java
- Command
- Web
- R
接入层
云账号服务
逻辑层
功能:
- 项目空间管理
- 对象管理
- 授权管理
- 命令解析
- 元数据
组件: - 请求处理器
- 调度器
- 作业执行管理器
计算层
飞天内核Apsara
Pangu,Fuxi,Kuafu,Zhongkui,Nuwa,
网友评论