美文网首页
CPDA数据分析师:管理数据和工作负载方面出现了新的挑战

CPDA数据分析师:管理数据和工作负载方面出现了新的挑战

作者: CPDA数据分析师培训 | 来源:发表于2020-12-03 08:29 被阅读0次

来源:CPDA数据分析师网 / 作者:数据君


趋势1:分析数据的新方法:开放式分析堆栈

在过去的一年中,很明显云已经赢得了传统的本地数据仓库,仅在过去的六个月中,我们就见证了云计算采用率的大幅上升,云数据仓库表明,简化软件可以使用户专注于自己领域的创新,而无需花费时间来管理数据分析软件,尽管云数据仓库可能是传统报告和仪表板工作负载的解决方案,但在分析数据湖中的数据时仍然存在差距,数据湖分析非常复杂,在2021年,将出现解决差距的新方法-越来越多的公司将采用开源方法进行分析,以在具有开放格式和开放界面的数据湖上运行多种类型的分析,而无需四处移动或提取数据用户锁定的专有技术。

CPDA数据分析师

这些工作量将增加传统的数据仓库用例

并且随着时间的流逝,由于企业内几乎所有数据都将移入数据湖,这些任务将变得越来越关键。我称这种新方法为“开放式分析堆栈”。该堆栈在每一层都使用开源技术-引擎,格式和接口,你是如何开始的?以下是构建堆栈时需要评估的一些开放技术:

1、对于核心引擎,请使用开源SQL查询引擎。

2、对于开放格式,最受欢迎的是JSON,Apache ORC和Apache Parquet(还有许多其他格式)

3、对于开放接口,JDBC / ODBC驱动程序可以连接到任何仪表板,报告或笔记本工具

4、使用开放的云,这样您就不会被锁定

趋势2:用于多云的用于SaaS的

容器的使用和受欢迎程度持续增长-这并不是什么新鲜事物,新功能是弄清楚如何在多云环境中运行容器化工作负载,随着越来越多的公司采用多云方法(仅在过去的一年中我们就看到了这种增长),这些公司将开始尝试在多云环境中运行容器工作负载,关于采用哪种技术的决定可能取决于是否已准备好多云并且可以立即将其容器化,如果一项技术或应用程序不符合那些要求,则将其移交给那些符合要求的人。

以分布式数据系统为例Hadoop非常笨重

并且对容器不十分友好,但是可以使用轻松地对一种分布式SQL查询引擎之类的技术进行容器化和编排,这正是能够满足这些要求的原因,它进一步推动普及,使其成为多云容器化工作负载的核心SQL引擎,面向消费者的SaaS应用程序已经广泛使用,另一方面以数据基础架构为中心的SaaS应用程序尚未积极,2021年的另一个容器趋势是托管数据分析和处理在运行的相关SaaS应用程序的增长,特别是使用云服务,管理容器通常并不容易,拥有SaaS应用程序的公司将成为赢家,这些公司可以弄清楚如何利用容器提供的可伸缩性,可移植性可扩展性和可用性,因为它们正在从最终用户那里抽象出管理的复杂性。

趋势3:骑云端,拥有数据:VPC内部署模型

我们知道云采用已成为主流,越来越多的公司正在将大多数数据创建和存储在云中,尤其是在具有成本效益的基于S3的数据湖中,但是安全问题仍然存在,尽管公共云提供了易用性,规模和部署速度,但这也意味着公司对数据的发送,使用和访问方式和位置没有太多的控制权,如果必须将数据吸收到其他环境中,则尤其如此,用户希望两全其美-云的灵活性和易用性以及数据周围的严格安全性,大多数人希望将数据保留在自己的云帐户中,这是他们可以控制并具有完全可见性的帐户。在这里,我看到了新的云原生架构的出现,尤其是在以数据为中心的托管服务方面,我称之为部署模型,在此模型中控制平面(作为SaaS交付,在供应商的VPC中运行)与计算和数据平面(计算和数据所在的位置,在客户的VPC中运行)是分开的。

控制平面监督,协调和管理计算和数据之外的环境

这包括将VPC与数据联网以计算到操作系统,它永远不会看到客户的任何数据,因为将供应商计算带入VPC中的用户数据,而不是必须将用户数据带入供应商计算,这种新的部署模型将在2021年得到更广泛的采用,它解决了许多公司面临的空白-希望在不丢失数据所有权的情况下利用云。

相关文章

网友评论

      本文标题:CPDA数据分析师:管理数据和工作负载方面出现了新的挑战

      本文链接:https://www.haomeiwen.com/subject/uogpwktx.html