支撑非数字原生企业数字化转型的数据底座建设框架
通过数据底座,主要实现以下目标:
- 统一管理结构化、非结构化数据。将数据视为资产,能够追溯数据额产生着、业务源头以及数据的需求方和消费方。
- 打通数据供应通道,为数据消费提供丰富的数据原材料、半成品以及成品,满足公司自主分析、数字化运营等不同场景的数据消费需求。
- 确保公司数据完整、一致、共享。监控数据全链路下的各个环节的数据情况,从底层数据存储角度,诊断数据冗余、重复以及“僵尸”问题,降低数据维护和使用成本。
- 保障数据安全可控。基于数据安全管理策略,利用数据权限控制,通过数据服务封装等技术手段,实现对涉密数据和隐私数据的合法、合规的消费。
数据底座的总体架构
华为数据底座总体架构数据底座的建设策略
数据底座建设不能一蹴而就,要从业务出发,因势利导,持续进行。具体来说,华为数据底座采取“统筹推动、以用促建、急用先行”的建设策略
- 数据安全原则:数据底座数据资产应遵从用户权限、数据密级、隐私级别等管理要求,以确保数据在存储、传输、消费等全过程中的数据安全。技术手段包括权限管理、权限控制、数据加密、数据脱敏等。
- 需求、规划双轮驱动原则:数据底座数据资产基于业务规划和需求触发双驱动的原则进行建设,对核心数据资产优先建设。
- 数据供应多场景原则:数据底座数据资产根据业务需求提供离线/实时、物理/虚拟等不同的数据供应通道,满足不同的数据消费场景。
- 信息架构遵从原则:遵从公司的信息架构。
数据湖:实现企业数据的“逻辑汇聚”👍
华为数据湖的3个特点
- 逻辑统一:华为数据湖不是一个单一的物理存储,而是根据数据类型、业务区域等由多个不同的物理存储构成,并通过统一的元数据语义层进行定义、拉通和管理。
- 类型多样:数据湖存放所有不同类型的数据,包括企业内部IT系统产生的结构化数据、业务交易和内部管理的非结构化的文本数据、公司内部园区各种传感器检测到的设备运行数据,以及外部的媒体数据等。
- 原始记录:华为数据湖是对原始数据的汇聚,不对数据做任何的转换、清洗、加工等处理,保留数据最原始特征,为数据的加工和消费提供丰富的可能。
数据入湖的6个标准
- 明确数据owner:数据owner由数据产生对应的流程owner担任。
- 发布数据标准:业务数据标准描述公司层面共同遵守的“属性层”数据含义和业务规则,一旦发布,就作为标准在企业内被共同遵守。
a. 数据资产目录:主题域分组、主题域、业务对象、逻辑数据实体、业务属性
b. 定义与规则:引用的数据标准、业务定义、业务规则、数据类型、数据长度、允许值、数据示例、同义词、标准应用范围
c. 责任主体:业务规则责任主体、数据维护责任主体、数据质量监控责任主体 - 认证数据源:确保数据从正确的数据源头入湖。
- 定义数据密级:数据入湖的必要条件,为确保数据湖中数据能充分共享,同时又不发生信息安全问题,入湖必须要定级。
- 数据质量评估:数据入湖不需要对数据进行清洗,但需对数据质量进行评估,让数据的消费人员了解数据质量情况及质量风险。
- 元数据注册:将入湖数据的业务元数据和技术元数据进行管理,包括逻辑实体与物理表的对应关系,以及业务属性和表字段的对应关系。
数据入湖方式
- 物理入湖:将原始数据复制到数据湖中,包括批量处理、数据复制同步、消息和流集成等方式。
- 虚拟入湖:原始数据不在数据湖中进行物理存储,通过建立对应虚拟表的集成方式实现入湖,实时性强,一般面向小数据量应用。
- 5种技术方案:
a. 批量集成:用于进行复杂数据清理和转换且数据量较大的场景,不适合数据延迟和高灵活性的场景。
b. 数据复制同步:用于需要高可用性和对数据源影响小的场景,不适合处理各种数据结构以及需要清理和转换复杂数据的场景。
c. 消息集成:通常通过API或提取数据,适用于处理不同数据结构以及需要高可用性和复杂转换的场景,不适合处理大量数据的场景。
d. 流集成:主要关注流数据的采集和处理,满足数据实时集成需求,处理每秒数万甚至数十万个(百万)事件流,不适合需要复杂数据清理和转换的场景。
e. 数据虚拟化:需要低数据延迟、高灵活性和临时模式的消费场景,不适合需要处理大量数据的场景。
结构化数据入湖
非结构化数据入湖
数据主题联接:将数据转换为“信息”👍
5类数据主题联接的应用场景
- 多维模型是面向业务的多视角、多维度的分析,通过明确的业务关系,建立基于事实表、维度表以及相互间联接关系,实现多维度数据查询和分析。
- 图模型面向数据间的关联影响分析,通过建立数据对象以及数据实例之间的关系,帮助业务快速定位关联影响。
- 标签是对特定业务范围的圈定,在业务场景的上下文背景中,运用抽象、归纳、推理等算法计算并生成目标对象特征的表示符号,是用户主观观察、认识和描述对象的一个角度。
- 指标是对业务结果、效率和质量的度量,依据明确的业务规则,通过数据计算得到衡量目标总体特征的统计数值,能客观表征企业某一业务活动中业务状况。
- 算法模型是面向智能分析的场景,通过数学建模对现实世界进行抽象、模拟和仿真,提供支撑业务判断和决策的高级分析方法。
网友评论