来源TalkingData furion头条 作者:xiaoxuebeii
我认为数据科学能力的平台化和自动化,这是未来发展的趋势和必然。
我理解的数据科学能力可分为三个部分:
a) 领域分析能力
b) 建模能力
c) 工程能力
由于我主要负责TalkingData公司云相关的工作,偏向底层资源,那我就来谈谈底层资源平台的工程能力。
数据科学的工程能力主要涉及数据工程、特征工程、模型工程,而这些工程的平台化和自动化的能力,离不开底层资源平台的支持。底层资源平台的能力限定了以上工程和自动化能力的上限。
在这种情况下,底层资源平台需要具有以下几个方面的功能:
1. 可提供各种资源服务
2. 可提供不同层次的资源服务
3. 资源即拿即用
4. 资源自动伸缩
5. 资源可供其他平台调用
以上功能可概括为三个特点:服务化、伸缩化和自动化。
以下是我设计的一个简单的平台架构,作为此思路的探索和总结:其中Service & Data Science Capacity代表平台可提供的服务,Orchestration & Scheduling实现编排和调度,Resource & Provision Layer提供伸缩和异构。分别对应服务化、自动化和伸缩化。
在Provision Layer和Service Capacity领域我们有些积累。上半年我们技术运营部研发了ANSER云平台,作为底层资源的统一管理平台和入口,对用户屏蔽了底层的异构环境,使用户可以对计算资源即取即用。
但是若想达成为数据科学能力提供可自动化、伸缩化和Platform级别的服务能力,还有较长的路要走。所幸这都在支持计划当中。
总结
工程的未来和发展方向必然是平台和自动化,它使得用户和技术人员各取所需、各司其职。用户无需关注底层的技术细节,对所需资源即拿即用。技术人员也无需陷入业务领域的泥沼,而更关注所提供的抽象服务。从以往的历次工业革命,电气、信息、互联网到未来的人工智能,无不如此。
网友评论