美文网首页
大数据场景下多源异构数据的实时处理分析

大数据场景下多源异构数据的实时处理分析

作者: 花江呀 | 来源:发表于2023-03-02 14:51 被阅读0次

随着大数据应用的发展,人们对实时数据的要求越来越高,大数据也逐渐从最初的离线数据仓库架构发展到Labmda架构,实现了离线实时更新的目标。到后来的Kappa体系结构中,Labmda体系结构的实时部分被提取出来单独运行。实时大数据时代已经到来,本文在此背景下介绍了一种基于Kappa体系结构的多源异构数据实时处理与分析体系结构。

一、架构介绍

下图为基于Kappa架构的多源异构数据实时处理分析体系结构,如图所示,它主要包括数据采集、流数据处理、流数据存储、数据服务四个环节,其中数据服务没有固定的结构,在不同的业务场景变化很大。以下主要介绍了三个环节:数据采集、流数据处理和流数据存储。

1、数据采集

采用ELK构件结构实现数据采集,其中Logstash接收多源异构数据并同时发送到消息队列进行流数据处理,ElasticSearch用于源数据存储。Logstash支持多种传输模式,包括TCP、UDP、JDBC和Kafka等,它还支持多源数据的类型验证,并在初期过滤不符合规范的异构数据。Kibana是ElasticSearch的可视化查询工具,能够使用组合嵌套查询语句全局查询ElasticSearch中的数据。

2、流数据处理

Flink实时流计算引擎用于实现流数据处理,订阅发送到第一个链路Logstash的消息队列,从消息队列中获取多源异构数据,并根据业务需求进行数据过滤、重复数据删除、补全、格式转换、索引提取等ETL操作。格式化数据和指标数据经过ETL后可以继续用于统计分析、匹配算法,实现业务需求的画像、预测等结果数据。

3、流数据存储

流数据存储也采用ELK组件结构,它不仅存在于整个建筑的尾部,也存在于建筑的中间环节。在第一个环节中,Lostash将数据传输到消息队列或将其存储到ElasticSearch,两者都是流数据存储。在第二个环节中,中间阶段的数据需要推送到消息队列中,同时存储到ElasticSearch中,推送到消息队列用于中间存储,便于后续处理流程订阅数据进行业务处理,存储到ElasticSearch中则是传统数仓架构中中间表留存的思维,用于中间数据的存储和查询。第二环节处理后的结果数据根据需要可不推送到消息队列,只进行ElasticSearch存储。

二、关键技术点

多源异构数据的实时处理分析架构中最为复杂和难以设计的是第二环节流数据处理。采用Flink实现流数据处理的方法是丰富多样的,可能存在的问题也是多种多样的。为了减少问题出现的概率,本文介绍以下两种维持Flink稳定高效运行的优化解决方案。

1、检查点重启策略

由于各种原因,Flink流数据处理任务可能会中断。为了实现因故障中断的任务的自动重启,保证系统的鲁棒性,需要配置检查点重启策略。其原理是定期对Flink任务进行快照,当任务由于故障而中断时,如果配置了重启策略,程序将从最新的快照位置恢复。

当然,检查点重新启动策略只是一种故障安全策略,重新启动只能解决部分问题,还有许多问题是重新启动无法解决的。在这种情况下,任务会反复重启,直到重启次数超过设置的限制而出现中断,这时就需要工程师来手动解决。

2、内存模型优化

下图显示了Flink任务运行时容器的内存模型。当Flink任务启动时,将启用一个严格按照下图内存模型分配内存的容器。一般情况下,默认的内存分配无法支持生产环境下的任务运行,因此每位大数据工程师都应该掌握内存分配技能,以支持业务任务的运行。

但是仅仅支持运行是远远不够的,内存分配的合理程度对系统的稳定性和鲁棒性有着巨大的影响。例如,若集群之间的网络交换速度是系统的瓶颈,短时间内的大量数据吞吐可能会导致交换内存占满,无法进行数据交换导致任务中断。在这种情况下,可以通过增加网络交换内存来提高瓶颈的吞吐量,避免系统故障。

三、总结

本文介绍了多源异构数据实时处理与分析体系结构的流程结构并阐述了两种保持系统稳定性和鲁棒性的关键技术。该架构可以应用于各种生产业务场景,目前鹏信科技已将该架构应用于态势、反诈、研判等安全项目,支撑项目稳定高效运行,效果显著。

来源:【鹏信科技】微信公众号

相关文章

  • 百问中台:(三)十问数据中台

    1.什么是数据中台? 数据中台是指通过企业内外部多源异构的数据采集、治理、建模、分析,应用,使数据对内优化管理提高...

  • Day 2064:学习

    数据中台 屏蔽异构数据源:数据服务必须要能够支撑类型丰富的查询引擎,满足不同场景下数据的查询需求,常见的有 MyS...

  • 大数据时代的数据分析技术面临的挑战

    数据分析是整个大数据处理流程的核心,大数据的价值产生于分析过程。从异构数据源抽取和集成的数据构成了数据分析的原始数...

  • Fluid 0.5版本发布:开启数据集缓存在线弹性扩缩容之路

    导读:为了解决大数据、AI 等数据密集型应用在云原生场景下,面临的异构数据源访问复杂、存算分离 I/O 速度慢、场...

  • 2018-06-05 HDF/NiFi introduction

    由于业务需要和系统整合(并购)。多源,异构数据的自动化处理以及分发,入库。还有在这之上的大数据分析和人工智能的运用...

  • 多源复制与级联复制

    Ⅰ、多源复制 1.1 多源复制的应用场景 多个数据库实例的数据需要合并统计分析 多个实例的数据放到一台机器备份 1...

  • 多数据源动态切换

    多数据源跳库组件及分析 连接池介绍 多数据源使用 多数据源应用场景 多数据源配置spring + druid 多数...

  • 大数据技术面临的挑战

    大数据时代的数据存在如下几个特点:多源异构、分布广泛、动态增长、先有数据后有模式。 正是这些与传统数据管理迥然不同...

  • Java技术在多数据库系统中的应用研究

    摘 要 本文讨论的是在多种异构数据库下,如何进行多数据库的访问,并分析了使用Java技术下的各种方法进行多种异构数...

  • Greenplum · 源码阅读 · PXF的pxf-servi

    一.背景 pxf适用于联邦数据的查询,支持多种数据源,如Hadoop、hive、关系数据库。支持多个异构数据源,并...

网友评论

      本文标题:大数据场景下多源异构数据的实时处理分析

      本文链接:https://www.haomeiwen.com/subject/hyujldtx.html