美文网首页
通过数据虚拟化将机器学习的复杂性降至最低

通过数据虚拟化将机器学习的复杂性降至最低

作者: CPDA数据分析师培训 | 来源:发表于2020-11-23 09:14 被阅读0次

    来源:CPDA数据分析师网 / 作者:数据君 /


    数据湖可负担得起地存储大量数据

    它可以潜在地将数据科学家感兴趣的所有数据存储在单个物理存储库中,从而使发现更加容易,通过以原始格式存储数据,避免了为特定任务而设计的转换,数据湖可以减少数据科学家在数据选择和数据集成上花费的时间,数据湖还提供了强大的计算能力,因此可以有效地转换和合并数据以满足每个流程的需求,但是在企业中应用机器学习(ML)时,大多数数据科学家仍在努力应对数据发现和集成的复杂性。

    CPDA数据分析师

    为什么挑战依然存在

    就像在拥挤的体育场内找到特定人物并不容易,将所有数据都放在同一个物理位置并不一定会使发现变得容易,另外由于来自原始系统的数据复制缓慢且成本高昂,因此相关数据中只有一小部分倾向于存储在湖泊中,更为复杂的是,许多公司可能拥有数百个分布在多个本地数据中心和云提供商之间的数据存储库,当涉及数据集成时,以原始格式存储数据并不会消除使数据适应每个机器学习过程的需求,相反它只是将执行该过程的负担转移给了数据科学家,尽管湖中可能具有所需的处理能力,但数据科学家通常不具备集成数据所需的技能。

    过去几年中出现了一些数据准备工具,以使数据科学家可以访问简单的集成任务

    更复杂的任务仍然需要高级技能。IT部门通常需要通过在数据湖中为特定的ML流程创建新的数据集来进行救援,从而大大减慢了进度,数据虚拟化的好处为了应对这些挑战,组织已开始应用新流程,例如数据虚拟化,可以提供对任何数据的单一访问点-无论位于何处,也无论其本机格式如何-都无需先将其复制到中央存储库中,提供相同物理数据的不同逻辑视图,而无需创建其他副本。这提供了一种快速而廉价的方式来提供数据的不同视图,以满足每种类型的用户和应用程序的独特需求,这些逻辑视图可以通过使用复杂的优化技术在物理数据之上应用复杂的数据转换和组合功能来创建,以实现最佳性能。

    具体而言,数据虚拟化通过以下方式帮助应对两个主要挑战

    数据发现使数据科学家可以访问更多数据,由于无需从原始系统复制数据集即可在系统中使用,因此添加新内容会更快,更便宜。这些工具为实际复制哪些数据提供了完全的灵活性。例如,对于某个过程,您可以选择从源实时访问所有数据,而对于另一个过程,则可以选择首先在物理存储库(例如数据湖)中实现所有必需的数据,而对于另一个过程,则可以选择可以选择仅体现一部分数据的混合策略(例如,将在流程中频繁使用或可能对许多流程有用的数据)。

    提供的所有数据集提供了可搜索的,可浏览的目录

    该目录包含有关每个数据集的大量元数据、标签,列说明和使用信息,例如谁使用每个数据集,何时以及如何使用,数据集的内容也可以直接从此目录中搜索和查询。

    工具根据一致的数据表示和查询模型公开所有数据

    这意味着无论数据最初存储在关系数据库,Hadoop集群,SaaS应用程序还是NoSQL系统中,数据科学家都可以看到所有数据,就像将其存储在单个关系数据库中一样。可以通过SQL,REST或OData等标准方法访问此“虚拟数据库”,这些方法支持包括R,Scala,Python和Spark

    ML等标准工具/语言。

    使IT数据架构师和数据科学家之间的职责明确,成本有效地分开

    IT数据架构师可以使用DV创建“可重用的逻辑数据集”,以对许多流程有用的方式公开信息,这些逻辑数据集也不需要物理复制数据,因此与传统方法相比,创建和维护它们的工作量要少得多,然后数据科学家可以对这些可重复使用的数据集进行修改,以满足每个ML流程的需求。根据定义,可重用的逻辑数据集会处理诸如转换和性能优化之类的复杂问题,因此数据科学家可以根据需要执行最终(且更轻松)的自定义。

    现代工具还包括高级管理功能

    因此可以集中实施安全策略,可以保留虚拟数据集的沿袭,并且可以在多个ML流程之间重用常见的转换和计算,数据虚拟化平台还可以将ML分析的结果无缝地呈现给业务用户和应用程序,因此可以轻松地将其合并到业务流程和报告中,随着机器学习和数据湖的不断扩散并支持现代分析,数据虚拟化是大幅提高数据科学家生产率的关键,它使他们可以专注于自己的核心技能,而不是数据管理,使数据科学家可以访问更多数据并利用基于目录的数据发现,并且极大地简化了数据集成,因此组织可以真正从手头的数据中受益。

    相关文章

      网友评论

          本文标题:通过数据虚拟化将机器学习的复杂性降至最低

          本文链接:https://www.haomeiwen.com/subject/nmdmiktx.html