数据科学

作者: Liam_ml | 来源:发表于2018-09-12 12:58 被阅读60次

数据科学家是干什么的,简单的讲就是利用数据去解决某个问题。数据科学家负责对一个数据科学项目从开始到结束的全程指导

一个成功的数据科学项目依靠于定量的目标;良好的方法论;跨学科的互动;可重复性的工作流程

本文介绍一下我认为如何成为一个数据科学家

数据科学项目中的角色

一个数据科学项目并不是真空中进行的,其需要众多角色,技能和工具的协同工作
数据科学中的项目角色如下:

  • 项目出资方:代表商业利益;为项目提供支持
  • 客户/业务方 :代表最终的用户利益;其了解这个领域
  • 数据科学家 :设定与执行分析战略;与出资方和业务方进行沟通
  • 数据架构师 :管理数据与储存数据;有时需要数据的收集
  • 运营工程师 :管理基础设施;部署最终成果

保证出资方的知悉与介入

这对于项目的成功至关重要,根据出资方/老板所能的理解程度,给他们介绍项目的计划,进展,阶段性成果
为了确保出资方签收,你必须与出资方直接交谈,获得一个清晰的目标。务必用量化的语言描述这个目标,这个量化的目标可以是你有效的检查目标是否满足其商业意图,以及你是否拥有高质量的数据和工具去达到这个目标

业务方/客户

业务方/客户代表了模型中最终用户的利益角色,你的模型是谁给谁用的
业务方比较有经验,因此,理想的情况是你可以与他们定期的召开会议,是你的工作与最终用户的需求是一致的。通常,业务方是隶属于一个机构中的不同群组,需要处理项目之外的事情,你有需要以客户容易理解的方式展示成果和进展

数据科学家

数据科学家负责执行使项目成功的所有步骤,包括设定项目战略和保证客户悉知
他们设计项目步骤,挑选数据源,挑选使用工具。精通统计学与机器学习,负责项目计划以及跟踪
更技术层面,数据科学家需要检查数据,数据分析,统计检验以及处理,应用机器学习模型和评价结果

数据架构师

数据架构师负责所有的数据以及存储。这个角色往往是数据科学家团队之外的人来担当。如数据库管理员

运营工程师

运营工程师在获取数据和提交最终结果过程中都是至关重要的项目角色。这关系到最后项目的部署

数据项目的阶段

制定目标(背景与目标)

数据科学项目第一个任务就是指定一个可衡量可以量化的目标。在此阶段,你应该尽可能的了解该项目的背景信息:

  • 首先,为什么要做这个项目,还缺少什么
  • 目前怎么解决的,为什么不够好
  • 需要什么资源:需要什么数据,需要什么领域的专家,计算资源是什么
  • 如何部署结果,有什么约束

通过项目的具体目标可以得出该项目的结束条件和接受条件。有了目标才能集中精力去解决目标。

收集数据

这个阶段往往是最耗时的一个阶段,将可以用到的数据整合到一起,这非常必要:

  • 什么数据可以用
  • 这些数据是否有助于解决问题
  • 这些数据是否足够多
  • 数据质量是否做够好

在这个阶段,对数据尽心基本的探索以及可视化,你将清洗数据,修复数据,转换数据。在这些过程中,你可能会发现这些数据不适合你的问题,或者你还需要其他类型的数据。或者你会发现其他的问题。
甚至,需要去修改或者优化目标。

建立模型

在这里你要从数据中抽取有用的洞察和领悟,以达到你的目标。为了找到数据表达的最好方式和数据建模的最好形式,在建模阶段和清洗阶段会有重叠和反复。
常见的建模任务

  • 分类:判定类别
  • 打分 :概率
  • 排名:排序
  • 聚类:类似的组
  • 找关系:相关性与潜在的原因
  • 特征化:从数据中生成通用的绘图与报表
  • 规划:最优化问题
  • 回归

模型

一旦有了模型,模型是否满足于你的目标?

  • 这个模型是否能够好的概括你的需求
  • 是否比现在的解决方案要好
  • 在现实情境中是否有意义

展现和编制文档

一旦有了满足成功标准的模型,你将要展示结果给项目方和其他利益方。在部署模型之后,你也需要负责为使用,运行和维护模型的机构编写文档
不同的受众需要不同类型的信息。面向业务的受众需要根据商业度量来理解你的发现所产生的影响。
为最终模型的使用者做展现需要强调该模型如何有助于帮助他们把工作做得更好。

  • 他们需要如何解释模型
  • 该模型的输出是什么样子
  • 何时可以否决模型

模型的部署与维护

一旦部署上线,意味着数据科学家不再负责模型的日常操作。但是你应该确保模型平稳运行,不会产生灾难性的决策。你也要保证模型的更新

总结:

  • 一个成功的数据科学项目不仅仅涉及统计学,机器学习,也包含各业务和客户利益的角色
  • 确定清楚的,可验证,可量化的目标
  • 为所有的利益方设定了可实现的预期

相关文章

网友评论

    本文标题:数据科学

    本文链接:https://www.haomeiwen.com/subject/fsimgftx.html