「自定义」数据源，解决复杂请求逻辑外部数据获取难题

作者: DataPipeline | 来源:发表于2019-10-25 14:26 被阅读0次

「自定义」数据源，解决复杂请求逻辑外部数据获取难题
python 按行取excle数据作为接口请求数据
【Java进阶营】Redis 应用【击穿，穿透，雪崩，分布式锁】
通过自定义SparkSQL外部数据源实现SparkSQL读取HB
Flink Kafka Connector 详解
Redis的缓存穿透、缓存击穿和雪崩
Excel的基础用法备忘
iOS启动广告模块
storm详解（三） storm架构和编程模型总结
十四、Redis应用问题解决

A公司专注为各种规模和复杂程度的金融投资机构提供一体化投资管理系统，系统主要由投资组合管理、交易执行管理、实时监控管理、风险管理等功能模块构成。随着企业管理产品数量的不断增多，大量数据分散在各券商系统中且数据存储格式各异，难以管理和利用。

为帮助投资机构最大限度地提高投资决策和运营效率，A公司需要实时监控自己的用户在各个交易平台的基本信息、余额、订单交易情况，并根据分析结果及时给出投资建议。

A公司的这种情况并不是个例。目前，越来越多的企业在数据传输的需求场景中，除了从上游不同业务数据库中实时、定时分配到下游系统之外，还有许多需求场景需要从外部合作商、供应商中获取业务数据。

如果想要每天从企业外部系统中获取数据，通常会采用什么方法呢？

一些用户给出的答案是：根据需要编写不同的脚本，手动调用第三方系统提供的API接口，在抓取数据后，自行编写清洗逻辑，最后实现数据落地。

然而随着第三方系统的日益增多，如果按原有方式会带来过多的脚本维护成本和数据传输任务管理成本。为解决上述痛点，DataPipeline在新版本的数据同步任务中增加了「自定义数据源」功能，用户可以通过上传JAR包的方式自定义获取数据逻辑。新功能支持任意的MySQL、Oracle、SQLServer、Hive、HBase等常见数据源，冷门数据库等（如腾讯云TDSQL），常用的API调用，用户自定义的SDK，或者通过Python抓取数据等。

一、「自定义数据源」提供的价值

通过「自定义数据源」，用户可以：

统一管理数据获取逻辑，快速合并JAR减少脚本开发量。

当上游发生变化时，不需要对每一个数据传输任务进行调整。

可结合DataPipeline的数据解析功能、清洗工具和目标初始化功能减少整体开发量，并提供监控和预警。

二、如何使用「自定义数据源」功能

用户可通过以下四步使用「自定义数据源」功能：

1. 创建自定义数据源，并上传JAR包（或调取已上传过的JAR包）。

2. 选择数据存放的目的地。

3. 使用清洗工具完成数据解析逻辑。

4. 配置目的地表结构，即可完成所有配置。

关于「自定义数据源」的核心页面：