美文网首页Web前端之路程序员数据分析
深入浅出数据分析(1-4章笔记)

深入浅出数据分析(1-4章笔记)

作者: 呆麻子 | 来源:发表于2017-05-14 22:03 被阅读94次

    说在最前面,我是一个不安分的人,一直在各种尝试,大神勿喷,有建议可以提出,谢谢大家的喜欢和不喜欢。本篇没有代码也没有模型图,关于本书,目前不好评价,因为前四章很简单,感觉是为后面内容做铺垫,当然,书单还有很多,慢慢的更新。目前职位是前端,也可以讨论前端的问题。以上。

    一,数据分析引言:分解数据

    本章主要就是提供解决问题的常用思路:
    以Acme化妆品公司超前那个保湿霜销售需求为例,期望数据分析师帮助提高销量
    开始给出数据分析的一般执行思路:确定->分解->评估->决策。

    1,只有更多的了解信息才可以确定问题

    合理的目标销量、掌握相关竞争对手信息,广告和社交营销预算

    2,把问题和数据分解

    提高销量:客户的期望是什么、哪种是有效的营销方式、广告的质量怎么样。
    对数据因子进行分解
    根据表格数据进行对比分析
    不断的和客户进行沟通,了解更多的信息

    3,评估

    评估的目的就是形成自己的判断,评估的方式就是进行比较优化得出一些结果进行汇总
    当然还要评估自己的作为数据分析师的能力或者说是信用问题。

    4,决策

    评估就是给出建议,同时要保证自己的观点传达到位,让客户对你的意见作出正确的决策。

    最后:

    案例中开始作出调整广告的建议,但是中间收看到一个产品针对少女市场饱和的新闻。那么合理建议一下子被否定了。那么就需要重新开始进行确定->分解->评估->决策。
    最后通过不断的分解和假设到掌握真实的边缘信息,深入挖掘市场数据得到新的目标客户发现有男士使用该产品,最后得出推出新男士品牌的决策,提高销量达到客户要求。

    二,实验,校验你的理论

    本章主要介绍一定要用实验来校验自己对数据分析产生的结论。
    以咖啡咖啡销量为背景

    1,观察数据要考虑到混杂因素,并列举出来

    选址方便、咖啡温度、员工热情、咖啡价值、偏爱去处

    2,拆分数据块,管理混杂因素

    东安地区分店、西雅图区分店、SOHO区分店

    3,实验必须加入实验组和控制组

    为什么要加入控制组?
    因为在第一次试验中,有降价和向客户说服咖啡是有价值的两条建议,但是实验只采取了降价措施,并没有说服价值行动,这样就会受到降价是否有效的质疑,所以最终建立了降价和说服两个实验组和一个默认控制组,从而可以进行最后的比较。
    故以控制组为基准才可以证实实验对应的假设条件是否有效。
    其中,也讲到了随机选择相似组的方法和重要性

    最后的整个流程就是:

    将数据表划分为微区域->将微区域随机分配给控制组和实验组->进行实验观察->收集结果->组与组进行相互比较,分析结果。

    三,最优化:寻找最大值

    本章主要讲解如何找出变量因子组合的最大值,涉及到了Excel中的solver方法以及基本的线性数学知识。
    案例背景:如何生产对应数量的橡皮鱼和橡皮鸭两种浴盆玩具已得到最大的利润?

    1,变量因子受到的限制条件:

    厂家有多少橡胶用来生产这些产品、厂家生产这两类产品需要多长时间?

    2,借助目标函数来发现目标C1X1 + C2X2 =P

    C表示约束条件、X表示决策变量、P是你的目标
    那么C1X1表示橡皮鸭利润、C2X2表示橡皮鱼利润,P就是总利润
    C可以表示每个产品的利润,X可以表示产品的数量,CX就表示总利润了。

    3,确定合理的选择区

    规定的时间内,最多只能生产400只橡皮鸭和300条橡皮鱼。
    根据橡胶的供应量,只能生产500只橡皮鸭,或者400条橡皮鱼。
    画出对应的选择区域利用Excel中的Solver工具进行求解。

    4,结果实际利润中发现通过1,2,3步骤得出的结论是错误的

    因为你的模型只是描述了你规定的情况,于是找出历史数据进行具体的分析
    发现每个月的销售数量和利润随着月份在波动。

    5,堤防负相关变量

    通过折线图可以发现,一个产品越多,另一个产品就越少,并且折线图可以反映每个月的 波动情况。
    于是改变约束条件,即下个月的销售数量的最大值从折线图来看不会超过多少来增加限制,从而得出最优解。最终得出有效的解决方案。

    四,数据图形化,图形让你更精明

    本章主要讲解是如何让数据图形化,这里就不是简单的利用Excel自带的一些表格来绘制图形,而是开始讲到用R语言来绘制。

    1,数据图形化的根本在于正确比较

    2,使用散点图探索原因

    3,最优秀的图形是多元图形

    4,同时展示多张图形,体现更多变量

    总结:

    这张主要就是讲解要学会从大量数据中筛选有用的数据(不是所有的数据都是有效的),然后将数据图形化的时候不是之前章节简单的折线图或者直方图或者线性图,而是离散且多变量图形的展示,便开始引出R语言来将数据可视化的概念。而不是简单的Excel图形工具。

    相关文章

      网友评论

        本文标题:深入浅出数据分析(1-4章笔记)

        本文链接:https://www.haomeiwen.com/subject/eiccxxtx.html