深入浅出数据分析 -读书笔记

作者: Mr_摩根 | 来源:发表于2020-02-09 12:15 被阅读0次

用数据的心智模式去分析 --《深入浅出数据分析》读书笔记
PYTHON Booklist
深入浅出Pandas数据分析
深入浅出数据分析
书单｜数据分析师
《深入浅出数据分析》.pdf 免费下载
深入浅出数据分析|数据清洗
数据，相互比较才有意义
《深入浅出数据分析》读书笔记-第一部分
数据分析入门自学计划制定--20180520

在学了python之后，发现自己走入了一个误区，如果想做数据分析师，还是需要先了解数据分析师在实际生活中可以解决哪些场景，以及如何去解决领导或客户提出的问题，根据不同的场景，依托统计基础选择合适的分析方法解决问题才是最重要的，excel，sql，python，tableau都只是工具。目前在面对数据时，本人不知道如何去分析数据，因此读了这本书，梳理其中精华，希望能更快进入数据分析师这个岗位。

第1章：数据分析引言-分解数据

数据分析流程图

1. 数据分析流程

1）确定：通过与客户沟通，确定问题

2）分解：将问题划分为可管理、可解决的组块

3）评估：评估分解组块的关键就是比较

4）决策：将分析形成报表，供制定决策

2. 反思心智模型，开始新一轮分析

分析过程中的错误或不完整信息，会导致决策失误。而这些信息是源于个人对外界的假设和确信的观点，也就是心智模型。因此，需要尽量明确你的心智模型，仔细斟酌各类影响因素。更重要的是，要基于数据得出观点，而不是个人猜想。在进一步明确数据和信息后，可以按照上述的数据分析流程开始新一轮的分析啦！

第2章：实验-检验你的理论

咖啡销量下滑原因及应对策略分析

1. 咖啡销量下滑原因分析

1）提出问题：在过去半年里，星巴仕销量持续下降，原因是什么？

2）数据来源：市场客户调查，邀请客户对影响销量的五个因素（选址、咖啡温度、员工热情、咖啡价值、偏爱去处）进行打分。

3）数据分析：利用比较法得出，咖啡价值得分一落千丈！

4）得出结论：咖啡价值的下降导致销量下降。

问题来了！Soho区是一个富人区，区经理认为这里没有人认为星巴仕缺乏价值。哪里出现了问题？是观察分析法中的混杂因素!

混杂因素就是研究对象的个人差异，它们不是你试图进行比较的因素，但会导致分析结果的敏感性变差。本例中的混杂因素是店址。也就说，不同店址客户对五因素的评分倾向是不同的，比如Soho富人区的咖啡价值得分明显高于其他区域。因此，要分区域来重新审视数据，发现东岸区的价值感得分最低，Soho区则一切正常，其他区域在一定范围内波动。现在最重要的问题是，采取哪种策略能够有效提高销量？记得采用控制变量法，排除混杂因素！

2. 咖啡销量下滑策略分析

1）目的：验证哪种策略最有效，策略一为降价，策略二为游说顾客“星巴仕很有价值”；

2）分组：将大的地理区域分成小的地理区域，随机将这些微区域分成控制组和实验组；

3）实验：控制组维持现状一个月，实验组1降价一个月，实验组2游说顾客一个月；

4）结果：控制组与实验组1的营业收入持平，实验组2的收入立即上升。

第3章：最优化-寻找最大值

1. 利润最大化问题

我们的橡胶够生产500只橡皮鸭或400条橡皮鱼，我们的时间够用来生产400只橡皮鸭或300条橡皮鱼。如果想让产品在下个月上架销售，我们的产量都不会高于400只橡皮鸭和300条橡皮鱼。每只橡皮鸭的利润是5美元，每条橡皮鱼的利润是4美元，求如何安排橡皮鸭和橡皮鱼的产量才能使得利润最高？

解：设橡皮鸭数量为X只，橡皮鱼数量为Y条

目标函数：

约束条件：

求解工具：Excel的求解器（solver）

2. 按照分析目标校正假设

上述的利润最大化问题分析看似完整，但实际利润却跌穿地板！由于其约束条件对实际情况进行了简化，当缺失某一个重要的假设条件，分析结果就可能毁掉。而上述问题恰好忽略了人们的需求偏好，导致分析结果不尽人意。

现在，观察近年来橡皮鸭和橡皮鱼的销量情况，发现橡皮鱼的销量一般不超过50条。在完善约束条件后，重新求得最优解。

第4章：数据图形化-图形让你更精明

1) 画图前提：准备数据，若数据过于庞杂，只须记住目标，目光停留在和目标有关的数据上，无视其他。

2) 画图目的：数据图形化的根本在于正确比较，其意义在于图片中隐含的数据，而不是炫目的设计。

3) 画图进阶：图形多元化，优秀的图形都是多元图形，即对3个以上的变量进行比较。

4) 画图工具：R

第5章：假设检验-假设并非如此

1. 问题

电肤公司是一家手机“皮肤”制造商。手机巨头Podphone公司即将发布一款手机，时间待定。电肤公司必须在手机发布前的一个月开始生产手机皮肤，才能赶上手机销售的第一波。当前的任务是电肤公司何时生产新手机皮肤？

2. 搜集证据

通过搜集产品发布信息，梳理这些信息中体现的变量关系，分为正相关和负相关关系。

信息中的变量关系

3. 提出假设

新产品发布假设

4. 假设检验

1）假设检验的核心是证伪，即剔除无法证实的假设，排除错误假设。

根据资料可排除1和假设5

2）对于假设2-4，借助诊断法找出否定性最小的假设，判定哪个假设最强。

基于诊断法的假设判定

得出假设3为最强假设

3）新证据来了：Podphone公司召开了新手机打样庆祝会，新证据使得假设2变为最强假设！

4）根据最新分析结果采取行动吧！

第6章：贝叶斯统计-穿越第一关

1. 条件概率与贝叶斯规则—蜥蜴流感病毒案例

研究表明总人口中有1%的人患有蜥蜴流感。已知若某人已患蜥蜴流感，试验结果为阳性的概率为90%，若某人未患蜥蜴流感，试验结果为阳性的概率为9%。假定以1000人为基础进行计算：

蜥蜴流感病毒案例分析

2. 回忆贝叶斯公式：

这个公式看似复杂，但在实际应用中，n一般为2，也就是说把B划分为正反两面，情况就简化很多了。另一方面，要熟记一个公式：

,这个条件概率公式简单好记，应用广泛，且有助于理解贝叶斯公式！

条件概率形象化

第7章：主观概率-信念数字化

信念数字化与图形化

1. 问题

投资公司的分析师们对投资计划的分歧很大，分歧主要体现在六个方面：（1）俄罗斯下一季是否会补贴石油业？2）俄罗斯是否会收购欧航航空公司？3）越南今年是否会减税？4）越南今年是否会鼓励外国投资？5）印尼旅游业今年是否会翻身？6）印尼政府是否会投资生态旅游？

分析师们对这六个方面的判断不同，众说纷纭，争论越发激烈。他们对这六个假设的用词有：可能，极不可能，可能性更大，有可能，可能不，不可能。。。如何让概率用词更精确？分析师们的观点是否真的差异巨大？

2. 用主观概率体现信念

主观概率是指个人对某事的确认程度，一般用于预测孤立事件但缺乏可靠数据的情况下。现在，需要将各种说法转换为数据！

分析师们的猜想数据化

接着，可以用图形（如散点图）直观表现每一种说法的概率倾向。同时，可以用“标准偏差”分析数据点与平均值的差距。主观概率偏离平均值的标准偏差越大，分析师们在假设成立的可能性方面的分歧越大。

3. 新的消息改变初始概率

最新消息：俄罗斯宣布售出所有油田，称对商业失去了信心。这条新闻可能会导致投资价值大幅缩水，降低假设一的主观概率，另一方面，这个新闻可能只是俄罗斯的一种策略，实际上他们并不打算出售油田。接下来，要确定在得到这条消息的前提下，分析师们对假设一的概率会有什么变化？

贝叶斯规则是修正主观概率的好办法：H代表俄罗斯会（不会）补贴石油业，E代表新的证据。则：

拿到新的数据后，重新分析~

第8章：启发法-凭人类的天性做分析

1. 问题

邋遢集是由数据邦市市政府资助的一个非盈利团体，他们进行公开宣传，劝说人们不要乱扔垃圾。他们把最近的工作结果汇报给了市政府，但市政府需要知道垃圾量减少了多少，否则就会削减资金！

2．难题

难题是垃圾量的减少无法定量计算出来，没有一个统一的散乱垃圾计量模型。垃圾的定量计算看似走不通。

3. 方法

基于启发法的发散式思维

人们以极快速度作出的决定或不凭借任何数据作出的决定，往往靠的是直觉，直觉一般看到的只有一个选项。通过发散式思维的思考，即启发法，可以得出多个选项。现在用启发法确定用哪些变量分析能够更全面地描述邋遢集的绩效。

基于启发法的邋遢集绩效描述变量确定

站在市议员的角度考虑他们会如何评估邋遢集的工作，用启发法构思如下：

基于启发法的工作评估

在利用启发法确定重要因素后，搜集数据，包括环卫工人问卷、公众问卷等。给市议员一个定量的报告和回复。

第9-11章：加薪要求分析

第9章到11章都是围绕加薪问题展开地。第9章基于源数据来分析主动提出加薪要求是否有利于提高加薪幅度；第10章利用散点图和回归方程分析了提出多高的加薪幅度比较合适；第11章则对回归分析的误差和改善提出了建议。三章之间的关系如思维图所示，思维图下面则是对每一章重点的提炼。

加薪要求分析

第九章：直方图-数字的形状

1. 问题描述

年底了，星巴仕的员工希望加薪，但他们不确定是否应该主动提出加薪要求，想要通过研究进行加薪结果预测。现在手头有历年加薪记录的数据，包括员工的编号、得到的加薪幅度、性别、年份、是否提出过加薪等字段。

2. 数据处理

1）提取并汇总数据。即从总数据中提取信息，将数据分解成易于管理的较小数据块。在该例中，得出加薪幅度、性别、年份等有用字段。

2）数据图形化。直方图是一种功能强大的图形，它可以显示出数据点在数值范围内的分布情况。在该例中，直方图显示出了获得每种加薪幅度的有多少人。

3）直方图描绘工具。用R绘制加薪幅度的频数分布直方图，分析了不同年份的加薪幅度、不同性别的加薪幅度、是否主动提出过加薪要求下的加薪幅度等情况。

4）得出结论。对加薪数据的不同子集进行直方图分析后，看得出获得大幅度加薪全靠提要求。

第十章：回归-预测

1. 问题

在确定了要提出加薪之后，下一个关键问题是该提出多少的加薪幅度呢？员工需要一个“加薪计算器”来预测加薪幅度。

2. 基于散点图的回归分析

每一个员工的要求加薪幅度和实际加薪幅度是一个数据点，这些数据点可以画出散点图。在散点图中用回归线（最准确地贯穿数据点的一条线）来表现要求加薪与实际加薪之间的关系，并得出回归方程：

，其中，X代表要求加薪幅度，Y代表实际加薪幅度。

3. 基于回归方程的预测

上述的回归方程可以预测人们的实际加薪幅度，“加薪计算器”设计完成！

第十一章：误差-合理误差

1. 问题

员工根据回归方程的预测向老板提出加薪要求，但员工们收到的反馈却差异很大。A员工要求5%，结果加了10%；B员工要求8%，结果加了7%；C员工要求25%，结果加了0%。这是哪里出现了问题？回归方程是否靠谱？

2. 原因分析

不管多优秀的预测模型，都会存在偏差，我们把这种实际结果与预测结果之间的偏差叫做机会误差，又称为残差。而对残差的分析是优秀的统计模型的核心。首先我们分析残差存在的原因：

1）源数据不全面：我们是从源数据得出回归方程，源数据的“要求加薪幅度”字段并没有超过22%的例子。因此，该回归方程也不适用于要求加薪幅度超过22%的员工。问题描述里的C员工要求加薪幅度为25%，显然超出了模型的预测范围。

2）回归线的贴合程度差异：在加薪幅度低于10%的时候，该回归线与数据的贴合程度很高。而加薪幅度在10%到22%的区间，该回归线便与数据点有较大的偏移。因此，对于要求加薪幅度在10%以上的员工，该回归方程的预测准确度会降低。

3. 优化方法

1）定量地指出误差：我们需要一个统计值来体现数据点与回归线的平均偏移量。均方根误差描述的了回归线周围的分布情况，有了均方根误差，就能告诉客户实际结果与预测结果之间可能有多大差距。通过R计算均方根误差为2.5%，这时可以在回归方程下方备注：该公式只在加薪要求介于0%到22%之间时有效。大部分加薪结果都会落在高于或低于预测结果2.5%的范围内。

2）分割方程来管理误差：由于要求加薪在0%-10%之间的数据与回归线的重合程度较高，而10%以上的数据与回归线的贴合程度很低。可以以10%为分界线，建立两个回归方程，即：当要求加薪幅度低于10%，使用公式1

；当要求加薪幅度高于10%，使用公式2

,同时注明两个方程的误差范围。

第12章：关系数据库-你能关联么？

杂志销量与文章数量的关系分析

1. 问题描述

《数据邦新闻》杂志社想找出在每一期刊物上刊登文章的最优数量。

2. 问题分析

1）源数据获取：现有四张独立的电子表格，分别是销量（期号和销量）、期数（期号和出版日期）、文章（文章编号、期号、）、作者。他们之间是相互关联的。

2）关联比较对象：我们的目的是对比不同文章数量对销量的影响，因此，再数据库管理软件中，通过“期刊”表将“销量”表与“文章”表关联起来。

3）分析比较对象：利用散点图描述文章数和销量之间的关系。

第13章：整理数据-井然有序

用数据的心智模式去分析 --《深入浅出数据分析》读书笔记
国庆假期阅读了几本数据分析相关的书，以读书笔记的方式推荐给大家。本篇为《深入浅出数据分析》/ 的读书笔记。 ...
PYTHON Booklist
PYTHON Booklist 来源：业余时间如何学数据分析？卡牌大师的回答深入浅出数据分析深入浅出SQL ...
深入浅出Pandas数据分析
深入浅出Pandas数据分析大家好，我是Peter~ 《深入浅出Pandas数据分析》第一版本终于可以和大家见面...
深入浅出数据分析
深入浅出数据分析（中文版） [tag]数据挖掘,数据分析,机器学习, [content]一款专注于数据分析的电子图...
书单｜数据分析师
数据分析入门《Head First Data Analysis》链接：深入浅出数据分析 (豆瓣) 电子工业出版社...
《深入浅出数据分析》.pdf 免费下载
下载地址：《深入浅出数据分析》[www.rejoiceblog.com].pdf
深入浅出数据分析|数据清洗
@(R语言)深入浅出数据分析|数据清洗数据 hfda_ch13_data_for_R.csv 加载数据正则表达...
数据，相互比较才有意义
统计与分析最基本原理之一就是比较法——《深入浅出数据分析》 1.数据分析-通过分解数据分析过程：确定>分解>评...
《深入浅出数据分析》读书笔记-第一部分
《深入浅出数据分析》通过模拟业务案例，结合统计知识，介绍了数据分析的分析过程，是一个很有帮助的数据分析入门指导书籍...
数据分析入门自学计划制定--20180520
首先说一下数据分析入门：根据某公司数据分析岗位的招聘信息以及自身情况制定以下学习计划： 1、深入浅出数据分析：重...