框架
存储
海量的数据怎样有效的存储?主要包括hdfs、Kafka;
计算
海量的数据怎样快速计算?主要包括MapReduce、Spark、Flink等
查询
海量数据怎样快速查询?主要为Nosql和Olap,Nosql主要包括Hbase、 Cassandra 等,其中olap包括kylin、impla等,其中Nosql主
要解决随机查询,Olap技术主要解决关联查询
挖掘
海量数据怎样挖掘出隐藏的知识?也就是当前火热的机器学习和深度学习等技术,包括TensorFlow、caffe、mahout等
数据层级
ODS :
原始业务数据库,实际业务生产中产生的数据结构
FACT:
顾名思义即为真正正确的数据,通过ODS进行数据清洗而来
TOPIC:
主题层,数仓是面向主题的数据平台,核心体现,即面向主题的数据结构,例如用户主题,基于用户主题可以记
性用户画像的梳理
APP:
应用层,对外提供服务的数据层级,可以用于BI数据的数据来源点等等
常见大数据应用 系统结构示例数据分析
定义
数据分析是用来衡量某个对象好坏的工具
BI是用来分析业务经营好坏的互联网工具平台
核心问题
对象是什么:分析的是人还是商品,分析的是业务还是体验
衡量标准是什么:什么样子的情况代表好,什么样子的情况代表不好
标准怎么计算:使用什么算法来生成工具
分析工具
报表:
预设好的工具,预设好相关的维度和指标,展示相关的指标
指标分析:
指标是度量,衡量某个事件好坏的标准;维度是角度,看待对象的角度;使用不同的维度来看指标,能够分析出问题具体出现在哪个业务角度
漏斗分析:
漏斗顾名思义是转化,用来衡量某个流程好坏的工具;流程是由多个事件窜起来的集合,同时一个流程也可以看做一个事件;既然是一个集合,那么漏斗的维度和窗口期必须一致才有意义
留存分析:
用来衡量重复性事件的工具;当一个事件发生之后,在一定的时间窗口期重复发生的比例,既然是重复事件,那么就需要是同一批事件的行动者
关联分析:
用来衡量两个时间关联性的工具;没有任何的条件约束,只需要放在同一个坐标系就可以衡量
用户画像
宽泛讲是用来描述对象特征的工具,除了用于用户,还可以是商品,商家等等
实际的工作就是:从各种维度给用户打标签
欢迎关注微信公众号 :第十页
网友评论