1 书籍简介
在数据为主导的今天,对于一种已经成型的模型,“怎么用”通常不是问题,用个软件或者编几行程序就能得到结果了,问题一般出现在模型“什么时候用”和“用完了,然后呢”。这本书就是集中讨论了后面两件事情。这本书重道轻术,“术”指的是数据分析方法和工具,“道”强调了如何对数据敏感,如何把数据分析工作融入商业思考,弥补许多人只懂理论脱离实际的不足。
书籍封面全书结构如下图所示,这篇文章主要记录思维观部分,如果对其他部分有兴趣可阅读原书:
书籍大纲数据是一座丰富的矿产,但价值不会自动产生,需要人工去挖掘。在数据价值产生的过程中,思维和技能有着各自的经验和边界;思维提供方向、思路、解读;技能负责实现,包括定义、采集、清洗、入库、分类、预测,只有紧密结合起来才能形成正循环,源源不断产生更多的价值。
2 认识数据分析
数据分析指的是将数据转化为价值的一个完整过程。作为一个完整过程,数据分析应该有很多环节。用看病来类比数据分析,是一个不错的例子,如下图所示。
看病类比数据分析2.1 数据分析与统计分析对比
数据分析与统计分析对比2.2 数据分析与数据挖掘对比
数据挖掘是指从大量不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、有用的信息和知识的过程。挖掘的结果常作为数据分析的素材,挖掘的越深,数据故事就讲的越精彩。数据挖掘技术是做数据分析达人的基本功。
数据分析与数据挖掘对比2.3 数据分析的内容
数据分析的内容会根据业务需求有所侧重,下图给出了分析内容的9个方面:
数据分析内容3 数据分析师
数据分析师是一个随着大数据兴起而崛起的新兴的工作岗位,是专门从事行业数据搜索、整理、分析,并依据数据制作业务报告、提供决策、管理数据资产、评估和预测的专业人员。“分析”的本质是对数据敏感。对数据敏感的公司的优势在于,运营过程中产生大量数据,这些数据可以通过一些手段转化为决策的动力。
3.1 数据分析师要求
数据分析师的基本要求如下图所示:
数据分析师基本要求正确的思维习惯、对数据敏感程度,是成为数据分析师的先决条件,其次才是“硬件”条件。除此之外,数据分析师还需要具备以下素养:1)态度严谨负责2)好奇心强烈3)协调沟通4)快速学习
下图比较了初级数据分析师、高级数据分析师和数据挖掘工程师之间的能力需求。
数据分析师能力需求雷达图下图列出了数据分析必须了解的一些关键词:
数据分析师必须了解的一些关键词4 数据分析过程
数据分析过程本质上是:
1)将数据与实际业务进行结合,深入了解业务背景,明确需求
2)将数据信息化、可视化
3)转化为生产力,帮助企业获利
数据分析过程数据分析的第一步,是把业务问题定义清晰,判断的标准式因变量Y和自变量X是否定义清晰。
指标设计的核心任务是把原始数据转化为专家数据,使数据分析项目落地,包括对问题分解和对数据分解。
建立模型阶段主要是选择和应用各种建模技术,同时对它们的参数进行校准以达到最优值。
数据分析报告回答分析结果如何?对决策的作用是什么?
5 正确的思维观
正确的思维观是一种通过数据手段解决问题的思维。
5.1 数据思维
所有的岗位都需要数据思维能力。数据思维能力是一种从数据分析到商业价值的洞察能力。要具备这种能力,需要的是对业务的深刻理解,以及将业务问题转化为数据可分析问题的能力。要具备这种能力,需要深刻学习回归分析的思想(不是模型)。
技能是容易掌握的,但思维却是很难培养的。数据思维能够帮助我们摒弃主观的偏见和看法。思维和技能作为数据分析思维的两个核心要素是衡量一个数据分析师水平的软指标,培养自己的数据思维与处理问题的技能需要在实践中不断完善和进步。
5.2 统计思维
统计思维是通过统计学方法来表述数据的分布特征。如数据的集中位置、分散程度、数据分布和数据相关等。从思维和科学角度看统计思维可归类为描述、概括和分析。
描述可以理解为“这堆数据长什么样”,统计学描述数据使用的指标通常是如下统计量:平均数、众数、中位数、方差、极差、四分位数等。
概括在数据分析中常见的就是分布,比如均匀分布、二项分布、正态分布等,概括的意义在于用一两个简单的概念传递出大量的信息,我们说数据服从正态分布就是从数据的描述性指标中抽取了均值和标准差。概括是在描述的基础上抽离出来的概念。
分析就是将研究对象的整体分为各个部分、方面、因素和层次,并加以考察从而发现数据中隐藏的规律。区别于描述和概括的一个非常重要的特征,分析是以目标为前提,以结果为导向的。
统计思维的相互关系如下图所示:
统计思维相互关系5.3 逻辑思维
逻辑思维中,要用到概念、判断、推理等思维形式和比较、分析、综合、抽象、概括等思维方法,掌握和运用这些思维形式和方法的程度,就是逻辑思维的能力。
逻辑思维包括以下几个方面:
上取/下钻思维
上取思维就是看完数据后,要站在更高的角度去看这些数据。上取思维的关键,在于建立长远目标、全局观念、整体观念、完整地分析数据。
下钻思维就是把事物切细了分析。下钻思维的关键在于知道数据的构成、分解数据的手段、对分解后的数据的重要程度的了解。
求同/求异思维
求同就是要找到共性的东西进行分析,要客观。
求异就是要看到数据中不同的地方、特殊的地方。
抽离/联合思维
抽离思维就是让自己站在旁观者的角度看待数据,关键在于多种分析方法,多角度看问题,不要钻牛角尖,多学习别人的好方法,学会集思广益,发散性思维。
联合思维指的是能站在当事人的角度去思考和分析,关键在于学会换位思考。
离开/接近思维
离开思维就是在遇到困难的时候,学会自我调节、自我放松。
接近思维就是为了达成目标,实现增长,我们需要多接触要解决的问题,花时间分析。
层次思维
层次思维需要你熟悉客观环境、员工的能力、行为的规律、他需要什么。
问题的展开方式
网友评论