课时6 大数据存储、计算与分析
数据分析:
-
数据采集与处理
-
数据质量与管理
-
机器学习
-
数据可视化
数据分析流程是基于商业目的,有目的的收集、整理、加工和分析数据,提炼有价值的信息过程。
-
明确目标。数据对象是?商业目标是?解决的业务问题?
-
数据收集。确定数据范围,获取目标数据,整合相关数据。
-
数据处理。处理缺少数据,清洗不一致数据,关联、汇总数据。
-
数据分析。基本数据分析、数据探索、复杂数据分析。
-
数据展现。整合组合信息,整合信息、观点,图表展现信息。
-
分析报告。简单可靠,清晰明了,逻辑性强。
Hadoop生态体系:
阿里大数据体系:
1546701921(1).jpg
课时9 数加平台介绍
1546751196(1).jpg 1546751560(1).jpg 1546751068(1).jpg课时 11 分析型数据库产品介绍
OLAP & OLTP:OLAP为在线分析系统,以分析为主;OLTP为在线业务系统,以业务支撑为主。
OLAP中的主要概念:
维度:观察事物的角度(属性),即从哪些方面来观察、测量某个事物,如年龄、区域、机型等。
度量:也称为“事实”,即记录了一次实际的测量、购买等发生的事实,包括维度和测量值。
MPP数据库(Massive Parallel Processing,大规模并行处理):由多个松耦合处理单元组成,每个单元拥有自己的CPU、内存、存储等,每个单元内都有操作系统和管理数据库的实例副本,最大的特点在于不共享资源。
-
私有资源
-
分布式存储
-
分布式计算
-
任务并行执行
-
share-nothing
-
横向扩展
AnalyticDB产品特点
-
分档的存储。Mem<-SSD<-SATA。
-
自由的查询。Mem<-SSD<-SATA。
-
智能的优化。Mem<-SSD<-SATA。
-
方便的接口。 mysql协议
-
分层的安全。数据库、表组、表、列。
-
弹性多租户。资源隔离/元数据。
课时 12 分析型数据库基本概念
表组:是一系列可发生关联的表的集合,是一个逻辑概念。表组分为两类:普通表组合维度表组。
1546791526(1).jpg表组的特点:
-
表组是数据物理分配的最小单元
-
同表组内的表才可以快速hash join
-
同一个表组内的表共享一些配置
-
建议同表组中的表一级分区数一致
维表特点:
-
维表必须放在维度表组上
-
维表的大小有限制,表的数据量不能太大
-
维表不需要设置分区信息
-
维表可以和任何表进行关联,不受表组的限制
-
维表保存在每个节点上,同样大小的数据,维表会消耗掉更多的存储资源
事实表的特点:
-
普通表选择表组时需要考虑后续操作中要关联到的其他事实表。
-
普通表的数据量不受限制,但是必须至少设置一级(Hahs)分区。
-
多张普通表关联时,必须有Hash Key(一级分区键)参加
-
普通表分为两类:离线批量更新表(Batch)和实时更新表(Realtime)
-
批量更新表如果要增量加载数据,则必须设置二级分区
-
实时更新表可以直接insert/delete单条数据,适合业务系统直接写入
-
实时更新表不提供二级分区,因为天然支持增量
-
数据加载进表后,需要等待一定时间后才能看到
多值列:
-
可以存入String类型的多个值,分隔符默认为半角逗号,也可以建表时进行配置
-
可以用in,contains条件对该列的单个值进行查询
-
枚举查询后该列的每个值可像一个普通列一样进行各类操作,但是不容许在没有进行枚举查询时对该列直接select或在group by中使用该列
网友评论