大数据平台

作者: 第十页 | 来源:发表于2018-05-29 17:58 被阅读1次
    数据加工

    框架

    存储

    海量的数据怎样有效的存储?主要包括hdfs、Kafka;

    计算

    海量的数据怎样快速计算?主要包括MapReduce、Spark、Flink等

    查询

    海量数据怎样快速查询?主要为Nosql和Olap,Nosql主要包括Hbase、 Cassandra 等,其中olap包括kylin、impla等,其中Nosql主

    要解决随机查询,Olap技术主要解决关联查询

    挖掘

    海量数据怎样挖掘出隐藏的知识?也就是当前火热的机器学习和深度学习等技术,包括TensorFlow、caffe、mahout等

    数据层级

    ODS :

    原始业务数据库,实际业务生产中产生的数据结构

    FACT:

    顾名思义即为真正正确的数据,通过ODS进行数据清洗而来

    TOPIC:

    主题层,数仓是面向主题的数据平台,核心体现,即面向主题的数据结构,例如用户主题,基于用户主题可以记

    性用户画像的梳理

    APP:

    应用层,对外提供服务的数据层级,可以用于BI数据的数据来源点等等

    常见大数据应用 系统结构示例

    数据分析

    定义

    数据分析是用来衡量某个对象好坏的工具

    BI是用来分析业务经营好坏的互联网工具平台

    核心问题

    对象是什么:分析的是人还是商品,分析的是业务还是体验

    衡量标准是什么:什么样子的情况代表好,什么样子的情况代表不好

    标准怎么计算:使用什么算法来生成工具

    分析工具

    报表:

    预设好的工具,预设好相关的维度和指标,展示相关的指标

    指标分析:

    指标是度量,衡量某个事件好坏的标准;维度是角度,看待对象的角度;使用不同的维度来看指标,能够分析出问题具体出现在哪个业务角度

    漏斗分析:

    漏斗顾名思义是转化,用来衡量某个流程好坏的工具;流程是由多个事件窜起来的集合,同时一个流程也可以看做一个事件;既然是一个集合,那么漏斗的维度和窗口期必须一致才有意义

    留存分析:

    用来衡量重复性事件的工具;当一个事件发生之后,在一定的时间窗口期重复发生的比例,既然是重复事件,那么就需要是同一批事件的行动者

    关联分析:

    用来衡量两个时间关联性的工具;没有任何的条件约束,只需要放在同一个坐标系就可以衡量

    用户画像

    宽泛讲是用来描述对象特征的工具,除了用于用户,还可以是商品,商家等等

    实际的工作就是:从各种维度给用户打标签

    欢迎关注微信公众号 :第十页

    相关文章

      网友评论

        本文标题:大数据平台

        本文链接:https://www.haomeiwen.com/subject/drbajftx.html