美文网首页数据蛙数据分析每周作业数据分析
《谁说菜鸟不会数据分析笔记》

《谁说菜鸟不会数据分析笔记》

作者: 小T数据站 | 来源:发表于2018-12-14 23:04 被阅读19次
    《谁说菜鸟不会数据分析》

    此篇文章旨在将原来所记的纸质笔记誊写到网页上,便于留存与查看,并找到了原书的电子版,增加了一些插图以便于理解,电子版链接已置于文末,如觉得不太清晰的但又觉得很有料的可购买纸质书进行查阅,个人觉得这本书是份不错干货。


    1.数据分析
    (1)何谓数据分析:

    • 数据分析是指用适当的统计分析方法对收集来大量数据进行分析,将它们加以汇总和理解消化,以求最大化地开发数据的功能,发挥数据的作用
    • 数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程
      (2)数据分析的三大作用:
    • 现状分析
    • 原因分析
    • 预测分析
      (3)数据分析六部曲
      (I)明确分析目的和思路
      (II)数据收集
      (III)数据处理
      (IV)数据分析
      (V)数据展现
      (VI)报告撰写
      (4)分析理论
      (I) 营销方面的理论模型:4P、用户使用行为、STP理论、SWOT等
    • 4P营销理论:主要用于公司整体经营情况分析
      Product:产品
      Price:价格
      Place:渠道
      Promotion:促销


      4P营销理论在公司业务分析中的应用
    • 用户行为理论:用于研究用户行为
      认知 -- 熟悉 -- 试用 -- 使用 -- 忠诚


      用户使用行为理论在网站分析中的应用

    (II) 管理方面的理论模型:PEST、5W2H、时间管理、生命周期、逻辑树、金字塔、SMART原则等

    • PEST分析法:主要用于行业分析
      Political:政治环境
      Economic:经济环境
      Social:社会环境
      Technological:技术环境
    • 5W2H分析法 :可用于用户行为、业务专题分析等


      5W2H分析法在用户购买行为上的应用
    • 逻辑树分析法:可用于业务问题专题分析


      逻辑树分析法在利润分析中的使用

    (5)数据分析师的要求:

    • 懂业务
    • 懂管理
    • 懂分析
    • 懂工具
    • 懂设计
      (6)常用的几个指标和术语
    • 平均数:算术平均数/调和平均数/几何平均数
    • 绝对数与相对数
      绝对数:是反映客观现象总体在一定的时间、地点条件下的总规模、总水平的总和指标,比如GDP、总人口等;
      相对数:比较数值(比数)/ 基础数值(基数)
    • 百分数与百分点
    • 频数与频率
    • 倍数与番数
      倍数是一个数除以另一个数所得的商,比如A/B=C,就说A是B的C倍;
      番数是指原来数量的2的N次方倍。比如翻一番为原来数量的2倍(21),翻两番为原来的4倍(22
    • 同比与环比
      同比是指与历史同期数据相比得到的值,比如2012-09/2011-09
      环比是指与前一个统计期进行比较得到的值,比如2012-09/2012-08

    2.字段:是事物或现象的某种特征
    记录:是事物或现象的具体表现,也称为数据或变量值

    3.数据类型:(1)字符型数据 ;(2)数值型数据

    4.数据表:(1)一维表 ;(2)二维表 ;(3)二维表转一维表 P54

    5.导入数据:(1)导入文本数据 P58 ; (2)自动导入网站数据 P60

    6.问卷录入要求:(1)单选题;(2)数值题;(3)多选题;(4)排序题;(5)开放性文字题 P64

    7.“三心二意”处理数据:信心、细心、平常心、诚意、合意

    8.数据清洗:
    (1)重复数据的处理:
    ① 函数法(excel):counif(数据范围,计算条件)
    ② 高级筛选法(excel):(I)选择单元格区域;(II)数据 -- 排序和筛选 -- 高级 ;(III)选择“将筛选结果复制到其他位置”,勾选“选择不重复记录”;
    ③ 条件格式法(excel):开始 -- 条件格式 --突出显示单元格规则 -- 重复值
    ④ 数据透视法
    ⑤ 删除重复数据:
    方法一:选择数据区域 -- 数据 -- 数据工作 -- 删除重复值
    方法二:(I)counif法;(II)筛选 计数列 不等于1的数值
    (2)缺失值的处理:
    ① 定位输入:【开始 -- 编辑 -- 定位条件】/ 【 Ctrl +G -- 定位条件 】 -- 空值 -- 确定
    (I)处理缺失值的四种方法:
    方法一:用一个样本统计量(比如平均数、中位数等)代替缺失值
    方法二:用一个统计模型计算出来的值去代替缺失值
    方法三:将有缺失值的记录删除,不过可能会导致样本量的减少
    方法四:将有缺失值的记录保留,仅在相应的分析中做必要的删除
    ② "Ctrl + Enter"快捷键
    ③ 查找替换:
    查找功能的快捷键 :Ctrl + F
    替换功能的快捷键 :Ctrl +H
    (3)检查数据逻辑错误
    ① 利用IF函数检查错误 :IF(logical_test,value_if_ture,value_if_false)
    ② 利用条件格式标记错误:选中数据区域 -- 开始 -- 条件格式 -- 突出显示单元格规则 -- 其它规则 -- 使用公式确定要设置格式的单元格 -- 在“为符合此公式的值设置格式”文本框中输入“公式” -- 格式
    OR(logical1,logical2,...):至少一个参数为真,就返回TRUE
    AND(logical1,logical2,...):所有参数全部为真,才返回TRUE

    9.数据加工
    (1)数据抽取:是指保留原数据表中某些字段的部分信息,组成一个新的字段 。
    可以是:
    ① 截取某一字段的部分信息 -- 字段分列
    ② 将某几个字段合并为一个新字段 -- 字段合并
    ③ 将原数据表没有而其他数据表中有的字段有效的匹配过来 -- 字段匹配

    • 字段分列

    (I)菜单法:选择要转换的数据区域,在“数据”选项卡的“数据工具”组中,单击“分列”按钮 -- “文本分列想到--第1步”中单击“分隔符号” -- “文本分列向导--第2步”中根据需要选择分隔符号
    (II)函数法:
    LEFT(text,num_chars):得到字符串左部指定个数的字符串
    RUGHT(text,num_chars):得到字符串右部指定个数的字符

    • 字段合并
    公式 结果
    =A2&"迟到"&B2&"次" 小白迟到5次
    =A3&"迟到比例为"&TEXT(B3,"0%") 小白迟到的比例为10%
    =CONCATENATE(A2,"迟到",B2,"次") 小白迟到5次

    函数TEXT()的作用是在使用连接运算符连接数字与文本时,控制数字的显示方式

    • 字段匹配

    VLOOKUP(lookup_value,table_array,col_index_num,range_lookup)


    Vlookup()函数

    (2)数据计算
    ①简单计算:+,-,*,/
    ②函数计算:
    (I)平均值与综合:AVERAGE(),SUM()
    (II)日期函数:
    DATE()
    YEAR()
    MONTH()
    DAY()
    (III)用函数DATEDIF()计算工龄
    DATEDIF(start_date,end_date,unit) :返回两个日期之间的年/月/日间隔数
    unit有Y/M/D/MD/YM/YD六种形式:
    "Y"指时间段中的整年数,"M"为整月数,"D"为整天数
    "MD"为天数的差,忽略日期中的月和年
    "YM"为月数的差,忽略日期中 的日和年
    "YD"为天数的差,忽略日期中的年
    (3)数据分组:VLOOKUP(A2,$D$2:$E$12,2)


    利用vlookup函数进行分组

    (4)数据转换:
    ① 数据表的行列互换:
    【选择性粘贴 -- 转置 】/ Ctrl + Alt + V

    10.数据抽样
    (1)普查
    (2)抽样调查
    RAND()函数:返回[0,1]的均匀分布随机数,而且每次计算工作表时都将 返回一个新的数值。
    a,b代表两个数字,a<b,若要生成a与b之间的随机实数,可以使用公式:
    =RAND()*(b-a)+a

    11.数据分析方法
    (1)对比分析法
    ①定义:所谓对比分析法,是将两个或两个以上的数据进行比较,分析他们的差异,从而揭示这些数据所代表的事物发展变化情况和规律性。
    ②特点:可以非常直观地看出事物某方面的变化或差距,并且可以准确、量化地表示出这种变化或差距是多少。
    ③分类:
    (I)静态比较是在同一时间条件下对不同总体指标的比较,也叫横向比较,简称横比。
    (II)动态比较是在同一总体条件下对不同时期指标数值的比较,也叫纵向比较,简称纵比。
    ④实践运用
    (I)与目标对比
    (II)不同时期对比(同比,环比)
    (III)同级部门 、单位、地区对比
    (IV)行业内对比
    (V)活动效果对比
    ⑤注意事项
    (I)指标的口径范围、计算方法、计量单位必须一致,即要用同一种单位或标准去衡量
    (II)对比的对象要有可比性
    (III)对比的指标类型必须一致
    (2)分组分析法
    根据数据分析对象的特征,按照一定的标志(指标),把数据分析对象划分为不同的部分和类型 来进行研究,以揭示其内部的联系和规律性。
    (3)结构分析法
    结构分析法是指被分析总体内各部分与总体之间进行对比的分析方法,即总体内各部分占总体的比例,属于相对指标。
    公式:结构相对指标(比例) = (总体某部分的数值 / 总体总量)* 100%
    应用:市场占有率 = (某种商品销售量 / 该种商品市场销售总额)* 100%
    (4)平均分析法
    平均分析法就是运用计算平均数的方法来反映总体在一定时间、地点条件下某一特征的一般水平。
    (5)交叉分析法
    (6)综合评价分析法


    综合分析法的5个步骤

    ①标准化数据方法:0-1标准化也叫离差标准化
    公式:第N个经标准化处理的值=(第N个原始值-最小值)/ (最大值-最小值)
    ②权重确定方法
    (7)杜邦分析法


    杜邦分析体系示例
    市场占有率杜邦分析体系

    (8)漏斗图分析法


    网站转化率(漏斗图)

    (9)矩阵关联分析法
    ① 矩阵


    矩阵示例

    ② 发展矩阵


    发展矩阵示例

    ③ 改进难易矩阵


    改进难易矩阵示例

    ④ 举一反三


    某公司产品矩阵示例

    (10)高级数据分析方法


    高级数据分析方法索引表
    • 可能是因为剩余三章是关于图表制作以及数据报告的制作,图文结合看比较好,故未作笔记
    • 文中标记页码的应该是篇幅比较长
    • 所以这里附上电子版书籍,以供查阅
      链接:《谁说菜鸟不会数据分析》
      提取码:769q

    相关文章

      网友评论

      本文标题:《谁说菜鸟不会数据分析笔记》

      本文链接:https://www.haomeiwen.com/subject/ktyihqtx.html