利用机器学习启动数据治理2.0时代

作者: 数据资本主意 | 来源:发表于2019-08-06 23:27 被阅读0次

利用机器学习启动数据治理2.0时代
Python+Spark 2.0+Hadoop机器学习与大数据实
从人肉到智能，阿里运维体系经历了哪些变迁？
机器学习1（特征工程）
数据总监要求
玩转KafkaIO与Flink
开源大数据技术框架
1. 概述
01_人工智能开发及远景介绍2018-06-03
总结各大AI巨头公司的8个顶级机器学习解决方案

数据治理之前的尝试主要倾向于“组织”：包括成立数据治理委员会，设置数据所有者和数据管理员的角色，同时制定用于定义和批准数据策略的流程的制度。在某些情况下，靠的是“人海战术”，例如手动采集和存储元数据。一般而言，这些活动的重点是所谓的“数据生命周期”，即从数据采集、存储到交付到数据仓库或辅助决策支持系统的过程。挑战在于，将数据治理活动限制在操纵组织结构图或无需思考的手工任务上，无助于实现操作数据治理的任何关键目标，例如:

扩大数据可用性和简化数据可访问性，使更多数据消费者能够查找和访问共享数据资产;

标准化数据语义，为数据使用者如何使用共享数据资产提供共同的理解;

供应可测量的高质量数据，用户高度信任数据的可靠性。

这些数据治理目标有一个共同的驱动因素：数据消费或信息使用。然而，无法实现这些基本目标会降低组织有效共享和利用公司数据的能力，更不用说解决来自内部业务政策、外部的法律和法规或符合行业标准的高级信息指令的遵从性和可审计性。

最近，行业趋势表明：人们持续对定义企业数据战略以及对数据资产获取、转换、资产化、共享和隐私保护实施监督感兴趣。数据治理越来越多地包含将传统的管理优先事项（如理解数据资产的使用和统一业务术语）与新出现的评估组织数据前景的关键需求（包括盘点、分类和记录整个企业的数据资产）相结合的解决方案，以指导数据的可知、可信和可用。这意味着确保数据资产的效能——保证数据资产的一致性，对共享数据资产的访问是透明的，以及向数据消费者提供他们在选择和使用数据资产时所需要的所有信息。

机器学习能力提高了数据目录可用于发展综合数据治理策略的方式。智能数据资产目录有助于激励数据生产者和数据使用者协同工作，减少数据管理者在描述数据方面的负担。扩大数据的可用性和可访问性是提高企业数据资产意识的重要因素。大多数企业都有各种各样的数据，但是，当没有数据资产清单时，这些资产中的许多资产实际上是隐藏的。这意味着需要一个数据盘点过程来遍寻整个企业，识别并分类公司数据资产。一个强大的元数据系统将扫描每个数据资产的内容，无论是结构化的、半结构化的还是非结构化的，都能够推断数据资产的元数据，甚至根据嵌入内容的敏感性对数据资产进行分类。

从扫描推断的元数据可以根据已知的参考领域和元数据进行分类和标签，并与定义的业务术语保持一致，这有助于标准化语义和提供对共享数据的共同理解。

映射数据生产工作流并封装此数据血缘关系为数据质量评估和补救提供了有价值的服务。当试图识别数据错误的根本原因时，能够从发现点向后遍历数据血缘让数据管理员确定错误的点。例如，如果在仔细阅读报告时，业务分析师可能会收到与其直觉不一致的值的警告。在这种情况下，她可以通过跟踪数据血缘来检查这些值是如何创建的，并可能确定修复在前一个处理阶段引入的数据缺陷的来源将修复报告。

另外，数据血缘映射是分析业务流程或数据源更改的影响时的最佳手段。例如，系统分析师可能希望确定哪些应用程序在会计准则发生更改时受到影响。

评估敏感数据正在迅速成为一项要求，特别是随着要求保护个人隐私数据的全球性法规越来越多。至关重要的是能够确定哪些数据包含有关个人的信息，以及这些信息是否根据一项或多项法规被归类为受保护的信息。结合有关数据资产敏感性和数据血缘的信息，数据管理员可以确定谁是用户，他们对具有敏感数据的数据资产的访问权限是什么，并通过控制来增加数据处理工作流，以确保防止未经授权的访问。

在智能数据资产目录中收集的可搜索的公司数据资产清单增强了数据的可访问性和可用性。使数据使用者能够通过目录或标签搜索数据资产，使广大数据使用者能够找到最能满足其需求的数据集。智能数据资产目录可用于共享不同类型的元数据，包括:

描述源系统结构的物理元数据，如表和字段。

描述语义信息的逻辑元数据，如数据库描述、数据质量评估和相关的数据管理策略。

描述如何在各种业务场景中使用数据资产的行为元数据。行为元数据可能是最重要的，因为它可以自动洞察系统中的每个对象，比如模式、表和顶级用户的流行程度。

通过简化数据发现、自动推断元数据、提高这些推断的准确性，以及提供业务术语表、数据元素定义、数据血缘和数据资产、数据义务（例如隐私保护）的可见性，有助于向个人展示正确的数据资产，并简化数据使用者查找和使用公司数据资产的能力。

虽然传统的元数据存储库或简单化的数据目录提供了其中的一些功能，但是智能数据资产目录使用机器学习（ML）和人工智能（AI）算法来增强支持数据治理活动的能力。除了发现数据资产的物理和逻辑特征之外，机器学习还可以用于挖掘辅助资产，如事务和查询日志，以获得行为洞察力——识别哪些不同类别的数据消费者，哪些数据资产访问得更频繁，哪些类型的查询用户正在执行，以及跟踪与文档化的物理和逻辑元数据相关的协作。机器学习数据目录能够在许多方面使用先进的分析算法，例如:

1、改进自动化数据发现和分类

可以为自动化数据发现过程提供种子, 提供数据结构、类型和敏感性的分类。发现过程的早期迭代的结果可以提交给数据管理员和主题域业务专家，他们将审查推论，在必要时进行更正，并提供额外的信息类别和标签。机器学习算法将从这些人类互动中学习，以完善发现分类过程，提高推理逼真度，同时减少人类交互的需要。

2、提供数据消费者建议

不同的数据使用者可以使用智能数据资产目录来搜索满足其需求的数据资产。机器学习算法利用主动学习通过结合用户选择和动作来迭代精炼预测模型，以改善搜索结果和推荐，将搜索结果显示给不同类型的数据消费者时。可以使用类似的技术来确认现有的业务术语定义，预测哪些有关数据资产可能满足数据消费者的需求，以便更快地将正确的数据资产提供给正确的用户，以满足他们的报告和分析需求。

3、评估数据的敏感性以支持遵从性

不同的法律对个人隐私数据有不同的定义，个人信息被认为是“个人”或“私人”的，通过与人类的交互，智能数据发现工具可以学会自动将数据属性分类为个人/私人数据，并确定哪些数据资产包含敏感数据，这些数据必须遵守规范。

智能数据资产目录将传统的元数据管理功能（如业务术语表、结构化元数据管理、对象元数据和数据血缘）与机器学习和人工智能算法结合起来，从人类交互中学习，不断为数据治理做出巨大贡献。

有人可能会说，第一代数据治理实践侧重于使组织与基本数据管理原则保持一致，例如记录结构元数据、确保数据质量或实行主数据管理。尽管这些行动策略对于有效的数字转换是必要的，但它们肯定是不够的。只采用促进遵守反应性数据政策的技术和工具的组织将发现，严重的数据问题可能得到解决，但报告和数据分析有效性的长期障碍将继续存在。这些组织将继续执行根深蒂固的反应式数据管理任务，而其更加灵活的竞争对手则在市场上跃居前列。

也就是说，数据治理2.0时代倡议正在从搭建数据治理组织架构和数据认责升级为更全面的翻译业务指令的方案，例如改善客户体验, 增加收入，降低成本，或者将守规转化为可操作和可强制执行的公司信息政策。这种转变促使人们关注数据可用性方面面向数据消费者的方面，通过简化数据可访问性、标准化数据语义、支持数据质量的方法、支持数据守规的数据资产分类，重要的是，加快了为报告、商业智能和分析提供正确数据资产的能力。遵守这些政策需要在启用和加快自助服务数据可访问性方面进行更灵活的可访问性和综合监督。

描述支持这些数据治理方面的操作需求表明，传统的元数据管理工具必须通过评估和描述整个企业数据环境中的数据资产的技术来扩展。这包括数据发现技术，评估物理、逻辑以及行为元数据——一个更全面，智能的信息积累，以增强数据消费者的集体经验。

寻找有助于不同企业利益相关者（业务消费者、数据分析师和数据治理人员）之间进行沟通和协作的工具，以确保能够满足他们的所有需求。通过对数据使用施加限制或限制对数据资产元数据的访问，避免使用偏离这些用户群体太远的工具。相反，拥抱那些可以平衡数据控制，提供正确数据资产的准确性，并通常提高数据意识的工具。

更重要的是，智能数据资产目录使用机器学习和人工智能算法从人类互动中学习，以改善自动化的数据发现，跟踪数据血缘关系，甚至识别敏感的数据主题守规。更重要的是，智能数据资产目录利用机器学习来理解使用模式、用户请求与选定数据资产之间的相关性，以及基于分类和内容的用户对数据源的亲和力。将智能集成到数据目录环境中有助于实现操作数据治理的重要方面的自动化，并帮助数据用户找到合适的数据源集，以满足其报告和分析需求。

利用机器学习启动数据治理2.0时代
数据治理之前的尝试主要倾向于“组织”：包括成立数据治理委员会，设置数据所有者和数据管理员的角色，同时制定用于定义和...
Python+Spark 2.0+Hadoop机器学习与大数据实
《Python+Spark 2.0+Hadoop机器学习与大数据实战》从浅显易懂的“大数据和机器学习”原理说明入手...
从人肉到智能，阿里运维体系经历了哪些变迁？
机器智能的前提是需要有数据，AIOps的数据从哪里来？如何利用数据代替机器决策、分析？如何利用机器学习算法与基于大...
机器学习1（特征工程）
机器学习概述机器学习是从数据中自动分析获得规律（模型），并利用规律对未知数据进行预测。数据集的组成机器学习的...
数据总监要求
工作职责： 1、大数据机器学习平台 2、数据采集数据治理数据安全数据仓库数据应用算法应用 3、挖掘数据...
玩转KafkaIO与Flink
随着大数据 2.0 时代悄然到来，大数据从简单的批处理扩展到了实时处理、流处理、交互式查询和机器学习应用。近年来涌...
开源大数据技术框架
开源大数据技术框架，持续更新中... 不含数据分析、数据挖掘、机器学习、数据服务、数据治理、数据安全等领域，仅围绕...
1. 概述
1 机器学习机器学习是一种统计学方法、计算机利用已有数据，得出某种模型，再利用此模型预测结果。【机器学习过程】【...
01_人工智能开发及远景介绍2018-06-03
机器学习是什么 .已有的数据经验 .某种模型迟到的规律 .利用此模型预测未来（是否迟到） .机器学习界数据为王 ...
总结各大AI巨头公司的8个顶级机器学习解决方案
在当今云计算超高速发展的时代，机器学习解决方案在改进系统方面取得了指数级的进步。机器学习利用大数据分析和识别模式的...