美文网首页
使用基于Hadoop的数据湖为业务分析提供新的最佳实践

使用基于Hadoop的数据湖为业务分析提供新的最佳实践

作者: CPDA数据分析师培训 | 来源:发表于2020-12-03 08:28 被阅读0次

    来源:CPDA数据分析师网 / 作者:数据君


    补充旧分析的高级分析

    简而言之,组织需要保留基于报表,SQL的现有分析而且还需要基于挖掘,群集,图形,统计和自然语言处理技术的高级分析来补充这些分析,传统形式的分析和报告主要是跟踪您熟悉的事实和业务实体,并且需要随着时间的推移进行监视,新的高级分析形式主要用于发现您以前不知道的事实,并将高度不同的事实,事件和实体特征(例如客户行为,合作伙伴可靠性和运营指标)链接在一起以形成新的见解并进行开发新的商机。

    如标准报告和多维数据集中所示

    传统分析往往需要在关系平台上提供干净整洁的数据才能获得高度精确和结构化的输出,但是当今的分析专注于原始,详细的数据,因为它可以促进发现和复杂的联系,而无需强迫性的精度或结构,鉴于数据需求的差异,越来越多的数据仓库和数据管理团队使用关系数据库和基于Hadoop的数据湖。

    CPDA数据分析师

    多种形式的分析串联

    分析中最强大的趋势之一就是使用多种形式的分析,因为每种方法都可以告诉您有关同一问题的不同之处,将多个分析结果联系在一起,您将获得更全面的洞察力,以获取业务优势,当基于Hadoop的数据湖以原始状态捕获和管理数据时,可以轻松地将数据重新用于多种形式的分析,根据单个数据湖的设计和数据内容,它可能同时支持基于集合的分析(基于SQL和其他关系技术)和算法分析(基于挖掘,聚类,图形,统计和NLP)。

    自助最佳做法的综合顺序

    当今最理想的新兴分析方法之一是依次连接几个相关的自助服务,数据驱动的任务,该顺序通常遵循以下顺序:数据访问,浏览,准备,可视化和分析,例如当用户访问和浏览数据时,他们可能会发现一些有意义的东西,例如最近流失的根源或成本中心正在侵蚀底线利润,发现之后他们希望根据所学知识快速准备数据集,然后与同事共享准备好的数据集或将数据集无缝移动到其他工具以进行进一步的分析和可视化,假设使用了几种工具类型(此多步骤过程中每个步骤一种),并且工具紧密集成以实现无缝切换,这种多步骤分析过程似乎可以与基于Hadoop的数据湖一起很好地工作,但前提是要给用户提供支持自助服务的集成工具集,自助服务并不适合所有人。如果将其提供给某些受严格管理的用户类别,则它会成功。

    来自人类语言,文本和其他非结构化数据的价值

    从理论上讲,您可以将任何数据或其他数字信息放入文件中,Hadoop可以对其进行管理并将其用于分析处理,在非结构化数据类别中,基于文件的人类语言和其他文本已通过分析得到利用,杀手级应用是一种情感分析,它扫描来自客户,潜在客户和其他人(可能是来自社交媒体或呼叫中心应用中的文本字段)的大量评论,以确定市场对您的公司,其产品,及其服务。

    保险中的索赔过程捕获了大量有关损失的文字

    保险公司在湖泊中收集这些信息,进行处理以提取有关感兴趣实体的事实,并使用输出数据扩展欺诈检测和精算计算中的分析应用程序,在医疗保健中的患者结果分析中(保险人和提供者都可以看到类似的文本驱动分析)。

    相关文章

      网友评论

          本文标题:使用基于Hadoop的数据湖为业务分析提供新的最佳实践

          本文链接:https://www.haomeiwen.com/subject/zngpwktx.html