数据平台建设整体思路阐述和总结

作者: 数据僧 | 来源:发表于2018-10-17 19:04 被阅读30次

    数据工作的理解

    1,数据的每一次的输出,永远不会有bug,只有对和错。

    2,数据人永远是在怀疑和被怀疑,孤独和寂寞中完成。每次的输出可能只有一个数字,概率,猜测。。。 但是其背后可能是一堆人无数个夜晚不断数据处理,验证,分析,最终剩下的东西(精华)。

    3,数据人不能浮躁,不能功利,必须站在中立立场,客观分析,客观给出结论。

    4,必须要有韧性。特别在创业公司,数据体系基本不完整,各线对数据的认知有高有低。数据收益不是那么显而易见,单单数据仓库建设周期就需要3-5年,坚持和持续的建设显得尤为重要.

    数据处理流程

    数据处理流程

    数据收集

    巧妇难为无米之炊,数据工作的第一步就是收集数据。

    数据收集的途径

    埋点
    优点:和业务能够紧密结合,支持灵活多变的业务需求。
    缺点:有码埋点对业务代码有入侵;无码埋点影响APP性能;有一定维护成本。

    爬虫(没做过)
    优点:可以抓取应用外数据,丰富数据类型
    缺点:有一定开发难度;有一定开发和维护成本;需要考虑数据的应用场景

    采购(不做详细描述)
    优点:获取数据容易
    缺点:注意法律红线;需要谨慎考虑数据应用场景

    数据库同步
    优点:和业务数据高度一致;和业务需求天然具有关联性。
    缺点:对业务数据库有性能消耗,需要考虑数据库性能的极限。

    数据收集方案选择
    数据库同步>埋点>爬虫>采购

    数据库同步方案
    1,根据DB log 日志。例如Sqlserver 开启CTLog,PG 开启WLlog
    2,Sqoop 进行数据同步。Sqoop支持目前市场主流数据库数据和Hdfs的相互同步
    3,依赖消息队列开发数据同步工具。

    注意:
    1,要考虑数据同步的时候 对业务数据库的压力。尽量使用从库,对没有从库的业务一定要考虑让步策略,异常策略,一切以业务正常运行为前提。
    2,充分考虑数据安全,在大数据安全不够健全的情况下,一定要对于敏感业务的数据,可以通过脱敏,混淆,隔离等方式处理。

    埋点-前端埋点
    场景:主要用于用户行为分析,UI分析,优化用户体验场景,非精准类的数据分析,和后端数据做交叉验证

    埋点-服务端埋点
    场景:对数据数据库同步方案的补充,大多用做BI统计,对数据精准度有一定要求的数据分析,和前端数据做交叉验证

    前端埋点有那些特点
    1,埋点变更受发版限制
    2,前端数据上报需要在wifi条件下上报数据,数据会有延迟
    3,对Key做特殊处理,前端埋点可读性差,需要做好字典
    4,前端埋点位置需要注意默认加载位置的埋点,否则会造成埋点数据虚高
    5,对前端代码会有入侵

    服务端数据埋点有哪些特点
    1,埋点变更灵活
    2,数据准确度介于数据库同步和前端埋点之间
    3,埋点时机,需要在数据写入数据库后
    4,对服务端代码会有入侵

    前后端埋点如何设计
    1,埋点描述内容:什么主体在什么时间做了什么事情
    2,埋点通用设计:公共埋点+业务埋点
    3,埋点格式:JSON结构。因为json具有较好的兼容性,大多数平台都能够比较容易解析。数据传输高效。
    4,埋点原则:
        1.一旦埋点上线,并且被用于数据分析,尽量不要做删除操作,多做追加操作。
        2.埋点设计过程中,不可闭门造车,一定要和充分了解业务,充分沟通,自上而下,从全局到局部做设计。
    5,埋点实施
    特别是对于从0到1 的平台搭建,各个业务线和团队,一定会遇到很大困难,一定要有极强执行力和耐力,否则埋点在初期会推进的非常缓慢,初期基本上需要手把手去引导
    6,埋点监控
        1,检查埋点是否错埋
        2,检查埋点是否漏报
        3,埋点字段的类型和上报的数据类型是否一致
        4,非空字段是否有控制
    7,异常埋点处理策略
        1.如果业务理解透彻,埋点明确,需求交付时间充足,校验机制成熟可靠,异常数据肯定不允许进入后面的数据仓库,但是需要标记并作统计。
        2.如果业务理解模糊,需求交付时间不充足,可以收集,具体使用的时候在做兼容或者其它处理。

    收集工具:Flume
    1,需要在各个业务服务器安装agent。
    2,管道内存和磁盘设置,数据不易丢失。但是在实际工作中出现过Flume进程不工作的情况,需要健全对Flume的监控,防止数据丢失

    数据仓库-设计原则
    1,全面且深入了解业务,需要和业务专家深入沟通
    2,数据按照最细粒度组织
    3,基于业务过程
    4,推荐扁平的大宽表设计,易用,效率高,消耗的存储可以忽略

    数据仓库架构
    1,注意表命名规范。
    2,需要确定各层,各表的业务边界,尽量做到表复用,防止表膨胀或者爆炸,造成无法过多的维护负担

    数据仓库几个需要关注的点
    1,业务矩阵:是前期调研的方法,我们需要把各个业务过程中的每个环节涉及到哪些维度,尽可能穷举出来。
    2,事实:为了量化,事实数据通常用于计算
    3,维度:为了分组和过滤,用于多维度分析
    4,缓慢变化维:为了历史留痕,分析的主体历史状态可以查询
    5,分区:为了快速定位需要的数据
    6,数据仓库需要数据统一,形同含义的业务的命名不要重复
    如何制作业务矩阵,如何确定事实表,如何确定维度,如何处理缓慢变化维,如何处理分区,事实和维度如何划分 不做细节描述

    数据仓库的地位和重要性
    1,是整个公司的基础数据,一定要保证安全、可靠、平稳、维护简单,上手容易
    2,是未来走过BI阶段 进行数据挖掘、机器学习、神经网络 的基石头,在数据仓库没有稳定之前 数据挖掘等更上层的数据相关的研究会陷入被动。

    数据分析-数据分析发展过程
    下面数据分析开展的顺序,可以同时进行,但是数据建设的不同阶段重点会不同,整体发展过程如下:

    数据分析发展过程

    1,BI报表:常规的市场,运营分析;抽取指标;经验获取;数据感知能力的培养;数据是二维,更多的是定量分析。
    2,多维数据分析:数据是三维,多个三维的数据 组成一个数据立方体,最终构成一个完整数据分析矩阵;这里会衍生出更多的指标,和特征;更多的也是定量分析
    3,数据挖掘:当数据分析更加复杂,无法通过经验进行合理的分类,无法根据经验提取更多的特征,就需要通过算法模型来处理;这部分还是需要一些经验,人工干预还是比较多一些。定量和定性都会有。
    4,机器学习:脱离人工,通过反复训练的出结论,抽取特征。这里更多的是定性分析。
    5,神经网络、AI 不懂。
    注意:
        这里面的任何一个阶段,数据可视化和数据信息化一致都贯穿始终。如何用正确合适的图标展示数据是数据可视化重点考虑的内容。如何提取数据的重点内容,传递一个完整故事是数据信息化要考虑的内容。

    数据分析的内容
    任何分析,都是基于产品和用户两个主题来进行分析。
    问题一:我们的产品被什么样的用户使用
    问题二:我们的用户都是在怎么使用产品
    这两个问题无法分割,关键看每个分析的需求和场景

    数据分析流程
    经验分析:确定问题和论点,通过经验来定
    数据准备:数据收集,准备数据,确认数据是否完整
    数据处理:统一数据格式,去除重复,增补,数据转换,数据分组
    数据分析及展现:确定数据分析方法,以及合适的图标
    专业报告:背景,目的,分析思路,数据展示,结论和建议
    跟踪、反馈:根据需求,确定是否需要跟踪和收取反馈,持续迭代优化分析报告。

    指标体系建设
    目标:最终的指标体系指标间能够交叉验证,粒度统一,数据一致,数据可解释
    1,明确分析主体
    2,确定分析业务过程,找到核心环节,每个环节的维度
    3,确定分析粒度
    4,明确收益矩阵,确定优先级

    数据应用-产品的增值服务
    这个最容易实现,有直接让用户付费,也有提高产品粘性,提高产品趣味性。例如:淘宝数据魔方,头条后台数据统计,微博的对每个客户开放的数据分析,微信热搜。

    数据应用-内部支撑系统
    2B-用户生命周期管理

    2B-用户生命周期管理

    2B-客户生命周期价值曲线

    客户生命周期价值曲线

    2C-用户生命周期

    2C-用户生命周期

    2C用户生命周期价值曲线,没有思考过。

    3,独立的数据产品
    大多提供的数据数据分析解决方案。方便用户进行数据分析,更加快速获取数据认知,通过数据支撑自身业务发展。
    例如:神策,诸葛,growthingIO 都是抽取通用的分析场景,然后产品化。
    最终的数据变现只能通过企业自身去实现。还有咨询类企业 可以直接通过数据变现。


    数据僧 历史文章

    数据仓库-概述-读书笔记一
    数据仓库-DW/BI架构对比-读书笔记二
    数据仓库-事实表/维度表技术-读书笔记三
    维度处理-数据仓库-读书笔记(四)
    数据仓库-高级事实表技术-读书笔记五
    数据仓库-高级维度表技术-读书笔记六
    数据仓库,零售业务举例,维度模型设计4步骤,读书笔记(七)
    数据仓库-零售业务举例维度表设计细节-读书笔记(八)
    数据仓库-零售业务举例如何提高仓库扩展能力-读书笔记(九)


    数据僧 参考资料

    数据仓库工具箱


    如果您觉得我用心了,觉得您有所收获,麻烦关注下我吧,您的关注就是我的动力,因为有你,我就不是一个人在前行。

    数据僧

    相关文章

      网友评论

        本文标题:数据平台建设整体思路阐述和总结

        本文链接:https://www.haomeiwen.com/subject/dvwrzftx.html