美文网首页高可用分布式架构系统架构师大数据
里程碑 | WeDataSphere 一站式开源大数据平台套件全

里程碑 | WeDataSphere 一站式开源大数据平台套件全

作者: 康月牙 | 来源:发表于2022-07-19 18:18 被阅读0次

    国家 2035 远景规划提出要加快全面数字化转型的步伐,而“大数据平台”是数字化转型的基础技术之一。对于任何企业来说,建立和维护一个大数据平台都不是一件容易的事情,而建设一个有特色的、完整易用的大数据平台,显然更是一件技术难度极高的事情。

    经过七年多的探索和实践,微众银行打造了一套一站式、金融级、全连通、开源开放的大数据平台套件:WeDataSphere。

    基础平台由数据交换、数据分发、计算、存储四大层次组成,关注底层数据传输计算存储能力;功能平台由平台工具、数据工具、应用工具三大层次组成,关注用户各类功能工具需求实现。形成了完整的大数据平台技术体系,提供一站式的丰富数据平台组件及功能支撑。

    GitHub:https://github.com/WeBankFinTech/WeDataSphere

    2019年开源以来,面向社区发布了 9 个开源组件,填补了业界 “开源体系化大数据平台套件”的空白,受到了各行业的广泛欢迎和采用。

    沙箱用户超 1,600 个,自建试用企业超 800 家,收到超 80 家企业投入生产的反馈,生产环境支撑的数据量达 400 PB,生产用户超 5,000 ,开源社区成员人数近 7,000 ;涉及金融、互联网、通信、制造、教育等众多行业。其中,计算中间件 Linkis 已进入国际开源基金会 Apache 孵化。

    近期WeDataSphere的各大开源组件已经完成了全面升级,从性能、功能、易用性等各方面得到了提升,是个重要的里程碑时刻。那么接下来由小编给大家介绍各大开源组件的最新情况。

    01 Apache Linkis(incubating) 计算中间件 

    https://github.com/apache/incubator-linkis

    02 DataSphereStudio 一站式数据应用开发管理门户 

    https://github.com/WeBankFinTech/DataSphereStudio

    03 Qualitis 数据质量管理平台 

    https://github.com/WeBankFinTech/Qualitis

    04 Schedulis 工作流任务调度系统 

    https://github.com/WeBankFinTech/Schedulis

    05 Exchangis 数据交换平台 

    https://github.com/WeBankFinTech/Exchangis

    06 Visualis 数据可视化工具 

    https://github.com/WeBankFinTech/Visualis

    07 Prophecis 一站式机器学习平台 

    https://github.com/WeBankFinTech/Prophecis

    08 Streamis 流式应用开发管理系统 

    https://github.com/WeBankFinTech/Streamis

    说明:Scriptis项目已经集成到DSS,可以直接使用


    01 Apache Linkis(incubating) 计算中间件

    Linkis是一个打通了多个计算存储引擎如:Spark、Flink、Hive、Python和HBase等,对外提供统一REST/WS/JDBC接口,提交执行SQL、Pyspark、HiveQL、Scala等脚本的计算中间件。

    本次发布主要支持在无 HDFS 的环境下进行精简化部署(支持部分引擎),方便更轻量化的学习使用和调试;新增对数据迁移工具 Sqoop 引擎的支持;异常处理日志优化;部分安全漏洞组件升级等;修复社区反馈的已知 bug。

    新版详情:版本动态 | Apache Linkis(Incubating) 1.1.2 版本发布


    02 DataSphereStudio 一站式数据应用开发管理门户

    DataSphere Studio(简称 DSS)是微众银行自研的数据应用开发管理集成框架。基于插拔式的集成框架设计,及计算中间件 Linkis ,可轻松接入上层各种数据应用系统,让数据开发变得简洁又易用。

    在统一的 UI 下,DataSphere Studio 以工作流式的图形化拖拽开发体验,将满足从数据交换、脱敏清洗、分析挖掘、质量检测、可视化展现、定时调度到数据输出应用等,数据应用开发全流程场景需求。

    DSS 通过插拔式的集成框架设计,让用户可以根据需要,简单快速替换 DSS 已集成的各种功能组件,或新增功能组件。

    DSS1.1.0 主要特性如下:

  1. 已集成 WeDataSphere 已开源的所有生态组件,包括 Apache Linkis1.1.1、Exchangis1.0.0、Schedulis0.7.0、Qualitis0.9.2、Visualis1.0.0、Streamis0.2.0 和 Prophecis0.3.2。
  2. 集成了 Apache DolphinScheduler1.3.X。支持将 DSS 工作流一键发布为 DolphinScheduler 工作流,为工作流调度设计并开发了全新的调度中心。
  3. 用户体验优化。如支持换肤、顶部导航栏改版、DSS 开发中心改版等。
  4. 帮助手册和新手指引。
  5. 安装部署优化。进一步简化 DSS&Linkis 全家桶一键安装部署流程,让 DSS 和 Linkis 的安装在半个小时内完成。
  6. 支持优雅升级。提供了如何从DSS1.0.1升级到DSS1.1.0,以及DSS0.9如何迁移到DSS1.1.0的详细升级流程。
  7. AppConn 架构优化。架构更加简化清晰,文档更加全面细腻,手把手教您如何实现一个新的AppConn,以及添加一个新的工作流节点。
  8. 新版详情:【里程碑】| DataSphere Studio 1.1.0 新版本发布


    03 Qualitis 数据质量管理平台

    Qualitis 是微众银行开源的一款数据质量管理系统,用于解决业务系统运行、数据中心建设及数据治理过程中的各种数据质量问题。它提供了一整套统一的流程来定义和检测数据集的质量并及时报告问题。

    本次发布的 0.9.2 版本,与上一版本 Qualitis 0.9.0 版本相比,主要完成了与 DSS 1.1.0 以及 Apache Linkis 1.1.1 的适配,修复了用户在使用过程中反馈的问题,完善了工作流接入的升级安装文档。推荐用户升级或直接使用该版本。

    新版详情:版本动态 | Qualitis 0.9.2 新版本发布


    04 Schedulis 工作流任务调度系统

    Schedulis 是一个基于LinkedIn 的开源项目 Azkaban 开发的工作流任务调度系统。该调度系统具备高性能,高可用(去中心化多调度中心和多执行器)和多租户资源隔离等金融级特性;现已被集成到数据应用开发门户 DataSphere Studio。

    本次发布的 0.7.0 版本,与上个版本 0.6.2 相比,主要完成与DSS 1.1.0 以及Apache Linkis 1.1.1 的适配,修复用户在使用过程中出现的一些问题和优化文档。推荐用户升级到此版本。

    新版详情:版本动态 | Schedulis 0.7.0 新版本发布


    05 Exchangis 数据交换平台

    Exchangis1.0.0是微众银行联合中国电信天翼云和仙翁科技共建的全新数据交换工具,支持异构数据源之间的结构化和非结构化数据传输同步。

    Exchangis1.0.0 还抽象了一套统一的数据源和同步作业定义插件,允许用户快速接入新的数据源,允许用户快速集成对接 Apache Linkis 新的数据同步引擎,用户只需在数据库中简单配置即可在页面中使用新的数据源和数据同步引擎。

    借助于Linkis计算中间件的连接、复用和简化能力,Exchangis天生具备了高并发、高可用、多租户隔离和资源管控的金融级数据同步能力。

    新版详情:版本动态 | Exchangis 1.0.0 版本发布


    06 Visualis 数据可视化工具

    Visualis是一个基于宜信开源项目Davinci开发的数据可视化BI工具。现已集成到一站式数据应用开发门户DataSphere Studio中。Visualis支持拖拽式报表定义、图表联动、钻取、全局筛选、多维分析、实时查询等数据开发探索的分析模式,并提供水印、数据质量校验等金融级增强功能。

    本次发布的1.0.0版本,完成了针对DSS1.1.0和Linkis1.1.1的适配,对接了DSS的结果集可视化分析、工作流报表开发、邮件发送等多个功能,是接入DSS1.0和Linkis1.0的第一个正式版本,与1.0.0-rc1版本相比,新增工作流View节点,完成多个增强特性,修复多个功能缺陷。推荐用户升级到此版本。

    通过Visualis可以制作出多种图形的数据看板,并支持在DSS工作流中通过数据输出节点发送邮件报表。

    新版详情:版本动态 | Visualis 1.0.0 版本发布


    07 Prophecis 一站式机器学习平台

    Prophecis 是微众银行自研的一站式机器学习平台,集成多种开源机器学习框架,具备机器学习计算集群的多租户管理能力,提供生产环境全栈化容器部署与管理服务。

    本次版本更新内容主要为Prophecis MLFlow模块对接DSS 1.1.0 版本,实验模块、MLFlow Appconn、MLSS Appconn均对DSS 1.1.0版本进行了适配。

    新版详情:新版发布 | 一站式机器学习平台 Prophecis 0.3.2


    08 Streamis 流式应用开发管理系统

    Streamis是一个基于开源社区联合共建的流式应用开发管理系统,初期版本由微众银行、天翼云、仙翁科技和萨摩耶云参与共建开发。

    Streamis在框架层面直接接壤DataSphere Studio,同时底层引擎层面又直接对接了Linkis的Flink引擎,可以让用户低成本完成流式应用的开发、调试、发布和生产管理。同时随着Linkis和DataSphereStudio开源版本的发布迭代,对Streamis的功能特性也是持续地优化和增强。

    Streamis 0.2.0版本发布,主要增加了对架构的优化和调整,并提供了一些重要功能特性,为后续版本迭代打下基础。

    新版详情:新版发布 | 流式应用开发管理系统 Streamis 0.2.0

    — END —

    如何成参与社区贡献

    ► 官方文档贡献。发现文档的不足、优化文档,持续更新文档等方式参与社区贡献。通过文档贡献,让开发者熟悉如何提交PR和真正参与到社区的建设。参考攻略:保姆级教程:如何成为Apache Linkis文档贡献者

    ► 代码贡献。我们梳理了社区中简单并且容易入门的的任务,非常适合新人做代码贡献。请查阅新手任务列表:https://github.com/apache/incubator-linkis/issues/1161

    ► 内容贡献:发布WeDataSphere开源组件相关的内容,包括但不限于安装部署教程、使用经验、案例实践等,形式不限,请投稿给小助手。例如:

    ► 社区答疑:积极在社区中进行答疑、分享技术、帮助开发者解决问题等;

    ► 其他:积极参与社区活动、成为社区志愿者、帮助社区宣传、为社区发展提供有效建议等;

    相关文章

      网友评论

        本文标题:里程碑 | WeDataSphere 一站式开源大数据平台套件全

        本文链接:https://www.haomeiwen.com/subject/cjvjirtx.html