昨天分享的文章向大家简要说明了数据挖掘及分析的概念,今天小编着重向大家分享一下在数据分析过程中应大致遵循怎样的流程步骤(本文介绍的步骤偏向于数据分析师岗位类的商务业务数据分析流程),从而更好地进行数据分析
第一步:确定问题
在进行真正的数据分析操作之前,要首先分析你的需要,你为什么要进行数据分析,数据分析是为了什么。一是确定解决或者弄明白为什么的问题,二是确定涉及到的变量或者数据的问题,由此两点,再去基于接下来科学的数据分析去提出策略解决问题。举个case,一堆人站在你面前,你发现他们的身高有低有高,体型有胖有瘦,这个时候你想知道这是什么原因造成的,此时你就确定了要弄明白的问题,接下来你又会想,是哪些因素造成的这种差异性呢?基因、饮食、性别、地域或者别的一些因素,这个时候你就是要确定哪些变量的问题。
第二步:数据采集
所谓的数据采集是收集被确定为数据需求的目标变量信息的过程。在数据的采集过程中,要遵循一些原则:准确性,代表性,广泛性等,原则的遵循重点是为了保证后续相关决策的有效性。数据的收集可能会从现实中去调查,也有可能直接从相关的数据库中调取。接着说例子,在上一步骤中,你确定了变量,这个时候你就要开始去收集采取变量数据了。
第三步:数据处理
数据处理也可以说是数据的规范化,需要把收集到的数据进行组织,包括根据相关分析工具的要求构建数据。例如,你用Excel进行处理时,必须先把他们录入到表格的行和列中;你用spss进行分析时,不仅需要数据视图的录入,还需要变量视图的录入。你需要根据你和工具需要来处理数据。
第四步:数据清洗
数据清洗也成数据清理,有些人是把这一步骤和数据处理步骤放在一起了,你也可以这样做,只是要记得这是两个不同的先后继承性的步骤,小编认为,在数据进行规范化处理之后,在进行清洗时会一目了然地发现问题解决问题,假设你把数据录入到Excel表格中后,你会叫容易的发现那些变量存在空值异常值,此时你就需要对他们进行清洗处理,或者利用一些大家公认的方法(填充、删除)进行处理。还接着那个例子说,在录入数据后,你发现有几个个体的身高是空值,这个时候你可以把他们直接删掉,或者采用平均值进行填充;你也可能会发现一些异常值,比如某人身高特别高或特别低,这个时候也要进行清洗。不过,总的来说目的只有一个,就是从而保证数据的真实性与有效性。
第五步:数据分析
也称为数据建模,完成以上步骤后,此时你就要来完成数据分析过程中的重头戏了,结合统计学,计量经济学等学科做定量分析,同时也要结合业务现实做定性分析、对数据进行描述性分析、探索性分析及信度效度的测量,尽可能建立科学准确的模型(如相关性、回归分析),来识别数据变量之间的关系等。不可否认的是:在这一建模分析过程中,需要大量反复的迭代工作来反复验证模型结果与假设的合理性。
第六步:数据可视化
按照上帝(顾客)或者boss的要求,将你数据分析的结果进行报告输出,所谓的可视化简单来说就是以图表的方式展示出来,这样会让用户更直观的接受理解你的分析结果。
第七步:提供解决方案
以上几步的完成,勉强说完成了整个业务分析的一半。你可能要问为什么做了那么多业务却没有多大的价值,别问为什么,哪有那么多为什么。不要忘了你的上帝是要你做什么的,是要你为他们解决问题,解决问题,解决问题。你需要想出合理的方案idea来解决上帝的问题。还记得我的前半生中的情节吗:贺函离开比安提,直接空降到辰星做总监,关键是还把之前的客户带走了,为什么,因为贺函有想法idea,能为客户解决问题,而所谓的前几个步骤,但凡是一个上了规模的咨询公司,都能够做到。按剧情开始时的情节来看,比安提之所以是比安提,辰星之所以是辰星,现在想想也不无道理。
希望以上内容有助于你理解数据分析的流程
敬请期待数据分析专篇系列后续
你们的关注点赞与转发是我前进的最大动力
网友评论