产品经理:什么是合理的数据开发流程?
2年数据产品经理经验,主要领域:风控、平台型产品、数据型产品,目前任职于杭州大搜车。
-
数据开发为什么这么慢?
-
数据需求怎么管理?
建议:认清现状,对比合理开发流程。
一、业务背景
1、黑盒化
小作坊式一站式开发,从原始数据到应用层数据,中间加工逻辑复杂,黑盒化,不适用于多业务、数据需求旺盛、生产用;
2、重复工作
非常多重复性工作,所有字段和表不能复用,数据开发需求多、混乱,开发疲于满足眼下的需求;
二、目标拆解
- 帮助建立数据开发流程,提高开发效率;
- 建立完善的元数据管理机制:
- 对于业务使用方来说,查找、使用数据方便快速,毋需东问西问;
- 对于数据开发来说,工作价值扩大,一张完善的中间层表会被更多的业务方使用;
- 增强复用性:减少重复开发,建立中间层
- 强化平台化思维:
- 使用统一开发工具,平台化、产品化大数据开发的能力,高效、快速;
三、动作
1、规范:
-
A、需求管理规范:提供包括业务背景、数据统计口径、数据来源在内的需求文档和协作软件的工作任务;
-
B、数据需求流程管理:明确数据分析、建模、数据开发之间的责任划分,管理包括数据开发、数据校验、数据应用的流程管理;
-
C、元数据管理文档:经过A&B 流程后,需求以文档的形式沉淀下表和字段的详情,表详情:包括调度依赖、统计频次、时间,字段详情:包括字段列表、字段加工的SQL ;
四、大数据平台特点
1、自建(Hadoop)
Hadoop:Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),三大构件包括:存储,HDFS;计算,MapReduce;调度,Yarn。
不足:
-
开发工作量大
:部署开源hadoop 集群,实现存储、计算、调度; -
时间长
:优先满足刚性需求,开发过程长、坑多,会出现业务等开发的情况,例如业务方找不到数据,数仓表示等我们的元数据管理工具上线;
优点:
-
数据安全
数据安全得到充分保证; -
可解释性强
出现问题,可以直接修改底层代码; -
定制性开发
针对特殊数据开发场景,可以定制开发 -
业务特点
适用于平台型企业、规模大、人数多;
2、阿里云(or 其他云平台)
经过阿里多年开发实战,功能完备,提供功能如下:
- 数据集成:任务式管理导入表、集成任务、任务测试、提交任务
- 数据开发:打包、发布
- 运维:监控、问题回溯、手动调整任务等;
- 数据质量:配置校验规则、报警、问题排查、数据清洗;
- 元数据管理:查看表:血缘、使用记录、数据质量、使用说明等;
- 数据安全:配置规则、安全等级、数据统计;
- 数据服务:配置api;
最后附上敏捷大数据实战参考;
五、【推荐】敏捷大数据实战
安利一下,敏捷大数据的理念原则,有兴趣的同学可以看下完整文章,原文:https://blog.csdn.net/weixin_41608840/article/details/80899714
- 组件化/平台化/产品化/本地化
组件化/平台化:通过对大数据处理链路进行模块化抽象,形成多个功能高度內聚的组件化平台;组件化平台既可独立与已有平台组件整合使用, 也可组合起来以解决更多不同链路上的问题。
产品化/本地化:通过组合不同的组件化平台,加上抽象萃取过的业务逻辑模型和规则算法模型,可以很容易构建特定业务领域的产品化解决方案;解决方案产品实际落地时可进行本地化处理,主要包括数据模型适配/规则集引入/算法模型参数调整等。
- 统一化/开放化/管控化
统一化旨在简化系统复杂度,提高管控能力;开放化旨在增强适应度,提高灵活性;两者相辅相成,需要找到一个合理的平衡点,且不失整体的管控性。
- 标准化/接口化/配置化/可视化
标准化/接口化:在大数据处理链路中,形成一系列标准化协议,包括数据命名空间协议/元数据和数据类型规范协议/数据访问接口协议/查询语言协议/数据传输协议/数据安全协议等;以服务接口和队列接口方式提供系统间交互。
配置化/可视化:以配置化和可视化方式提供人机交互。
- 自助化/自动化/智能化
现代数据应用要求能力输出,让领域用户在受管控的环境中,可以更加自助化的使用平台和数据实现业务需求;自助化的常规操作可以以自动化方式更好支持;自助化的洞察分析可以以智能化方式更好支持。
- 引擎驱动化(事件引擎/动作引擎/规则引擎)
通过引入高级引擎驱动能力,使得敏捷大数据应用可以更加迅捷、灵动、主动的触达外部受众,这时大数据应用本身已经成为强大的业务驱动引擎。
感谢阅读!
作者:Judy
微信(搜索):17801199209
网友评论