美文网首页
数据科学家如何提出好问题

数据科学家如何提出好问题

作者: AI研习社 | 来源:发表于2019-01-02 15:08 被阅读14次

    本文为 AI 研习社编译的技术博客,原标题 :

    How To Ask The Right Questions As A Data Scientist

    作者 | Admond Lee

    翻译 | hhvfg

    校对 | 酱番梨       整理 | 菠萝妹

    原文链接:

    https://towardsdatascience.com/how-to-ask-the-right-questions-as-a-data-scientist-913621907411


    数据科学家如何提出好问题

    在我们讨论作为一名数据科学家,如何通过提出正确的问题去定义一个问题的陈述之前,我们首先需要尝试着去理解为什么提出正确的问题是如此的重要。。。

    长话短说,当我开始我的首次数据科学家的交流的时候,我对自己的项目非常的兴奋,急迫地想去实践起来,而对于总体的布局没有一个清晰的认识。

    我虽然已经理解那些我尝试解决的问题,但是并没有具体的探究细节去定义目标和问题。更糟糕的是,让我去分析和预估的数据集我没有任何的预先的思考。直到完成了数据清洗和分析过后的两周我才意识到我对数据做了一个错误的假设--这全都是因为我事先没能对问题和数据进行充分的理解。

    这是我的小故事。

    我相信提出正确的问题以及定义问题的陈述是众多数据科学领域的初学者常常遇到的问题(当然包括我自己)。

    你看,提出问题很简单,每个人都能轻而易举地完成。但是,提出正确的问题是很需要技巧的,而定义一个问题的描述也是如此,我希望下面的内容会帮助你在处理这些挑战的时候,在方法上上或多或少的提供些帮助。

    让我们开始吧。

     通过提出正确的问句,我们可以很好地定义问题所在,怎么做到?

    不管你承认与否,在数据科学领域,定义一个问题的陈述是十分重要的一步。

    一个好的问题陈述往往事半功倍。

    --- Charles Kettering

    接下来,我们将通过四个步骤去定义一个问题的陈述

    所有的问题表述都应该啮合一个方向,就是在阐述一个问题陈述之前能够让人有一个很好的理解。

    1.理解需要去处理和解决的问题

    我们需要达到怎样的目标?你老板当前面临的最棘手的问题是什么?

    通常情况下,kaggle竞赛平台上面的问题设置阐述的都很好,我们被提供需要处理的数据集而无需去担心怎样的问题阐述对别人重要或者如何获得数据等这样的问题。

    甜点

    现在的情况是,在实际的工作环境中,问题并没有被很好的阐述,他们看起来模棱两可,他们都很模糊。

    并且,在大多数的时候,老板通常只是给我们一个问题:我有这么个“问题”,你能帮我解决他么?然后给个期限。

    简短却让人感觉并不那么‘甜’

    帮助他们将问题转换为一个数据科学问题,站在他们的立场,采用他们的角度,这  是我们的任务。

    换句话说,我们需要具备同理心。

    提出那些能让你对于问题获得更好更深理解的问题,因为老板对于问题有自己的看法。我们的任务就是从他们那了解到这种看法,然后结合我们数据技术方面的知识去想出一个解决方法,从而带来商业价值。

    2.具体问题具体分析

    一旦我们将问题框架化成一个数据科学领域的问题,那接下来要做的事情就是根据具体的问题评估情况

    这就意味着我们需要谨慎的分析当前情况下的风险,成本,收益,连续性,规律性,资源以及需求。

    为了进一步的阐述,通常可以归纳为一下这几点:

    问题的需求是什么?

    假设和限制分别是什么?

    可获得的资源都有哪些?这个涉及到人员和资金,例如计算机系统(可获得的GPU,CPU),还有仪器等等。。

    3.知道项目的潜在风险和收益

    这一步是可选的,取决于项目的大小和规模。

    一些项目可能仅仅还处在开发阶段,因此,在未来如果投入生产,潜在的风险可能远远低于巨大的收益。

    项目的主要的成本都有哪些

    潜在的收益有哪些?

    在项目进行过程中的风险会有哪些?

    会出现哪些突发的风险?

    回答这些问题能够帮助你对于当前的情况有一个更好的理解,以及更好的理解项目所涉及的内容,而对项目深刻的理解能够帮助我们比先前更好的评估问题陈述的正确性。

    4.定义一个成功的标准(或指标)去评估项目

    这是非常重要的。你不想做一个带有需要解决问题阐述的雄心勃勃的项目,仅仅是因为你意识到没有任何的指标去判断和预估项目最终的成功。

    这就归结为一个简单的问题:在项目最终结束的时候,你希望达成哪些指标?

    这些指标应该能够可测量,不是抽象不可量化的。这样的一些指标可能不会立刻的获得,因此我们需要对数据进行采集和处理

    和你老板讨论应该采用哪些指标是很有必要的,而且当询问这些正确问题的时候应该在项目进展的早期。

    定义成功的标准是如此的重要,因为这将帮助你在整个周期中去很好评估这个项目。

     最后的想法

    最后,我们在最终的目标就是更好的阐述问题以及更好的定义问题的陈述,去解决使用数据科学方法的问题,从而产生商业化的想法并驱动可行的计划。

    感谢您的阅读。我希望这篇文章能够让你真正的认识到提出正确的问题以及如何阐明问题的描述是何等的重要。

    总之,如果你有任何的问题或者想法请在下方给我留言,或者你可以通过LinkedIn.联系我,本篇到此为止,下次再见吧。

    想要继续查看该篇文章相关链接和参考文献?

    长按链接点击打开或点击【数据科学家如何提出好问题】:

    https://ai.yanxishe.com/page/TextTranslation/1347

    AI研习社每日更新精彩内容,观看更多精彩内容:

    自然语言处理中的词表征(第一部分)

    自然语言处理中的词表征(第二部分)

    图片语义分割深度学习算法要点回顾

    特朗普都被玩坏了,用一张照片就能做出惟妙惟肖的 Memoji

    等你来译:

    强化学习的未来——第一部分 

    初学者怎样使用Keras进行迁移学习 

    强化学习:通往基于情感的行为系统 

    如果你想学数据科学,这 7 类资源千万不能错过

    假期也要常来【AI求职百题斩】给自己充电哦!

    扫描二维码即可开始答题

    相关文章

      网友评论

          本文标题:数据科学家如何提出好问题

          本文链接:https://www.haomeiwen.com/subject/iouzlqtx.html