美文网首页
对数据科学能力平台化和自动化的一点思考

对数据科学能力平台化和自动化的一点思考

作者: 牛魔王该你 | 来源:发表于2017-10-19 13:59 被阅读0次

来源TalkingData furion头条 作者:xiaoxuebeii

我认为数据科学能力的平台化和自动化,这是未来发展的趋势和必然。

我理解的数据科学能力可分为三个部分:

a) 领域分析能力

b) 建模能力

c) 工程能力

由于我主要负责TalkingData公司云相关的工作,偏向底层资源,那我就来谈谈底层资源平台的工程能力。

数据科学的工程能力主要涉及数据工程、特征工程、模型工程,而这些工程的平台化和自动化的能力,离不开底层资源平台的支持。底层资源平台的能力限定了以上工程和自动化能力的上限。

在这种情况下,底层资源平台需要具有以下几个方面的功能:

1. 可提供各种资源服务

2. 可提供不同层次的资源服务

3. 资源即拿即用

4. 资源自动伸缩

5. 资源可供其他平台调用

以上功能可概括为三个特点:服务化、伸缩化和自动化。

以下是我设计的一个简单的平台架构,作为此思路的探索和总结:其中Service & Data Science Capacity代表平台可提供的服务,Orchestration & Scheduling实现编排和调度,Resource & Provision Layer提供伸缩和异构。分别对应服务化、自动化和伸缩化。

在Provision Layer和Service Capacity领域我们有些积累。上半年我们技术运营部研发了ANSER云平台,作为底层资源的统一管理平台和入口,对用户屏蔽了底层的异构环境,使用户可以对计算资源即取即用。

但是若想达成为数据科学能力提供可自动化、伸缩化和Platform级别的服务能力,还有较长的路要走。所幸这都在支持计划当中。

总结

工程的未来和发展方向必然是平台和自动化,它使得用户和技术人员各取所需、各司其职。用户无需关注底层的技术细节,对所需资源即拿即用。技术人员也无需陷入业务领域的泥沼,而更关注所提供的抽象服务。从以往的历次工业革命,电气、信息、互联网到未来的人工智能,无不如此。

相关文章

网友评论

      本文标题:对数据科学能力平台化和自动化的一点思考

      本文链接:https://www.haomeiwen.com/subject/lguuuxtx.html