1. 什么是数据分析?
1.1 什么样的数据分析有意义?
企业数据量比较大的、复杂度比较高的、颗粒度比较细的数据,就有较高的分析和利用价值。
数据颗粒度是指从不同的层次来看待数据。
1.2 数据分析的价值
- 了解数据的整体状况。整体状况包括总体情况、结构情况、异常情况等。
- 快速查询数据。当想要了解某个数据情况时,可以快速的得到想要的数据。
- 数据关系之间的探索。探索不同数据之间的相关关系与因果关系。
- 业务预测。
(一般数据分析包含三方面的作用,描述现状、洞察与预测)
1.3 数据分析的几大抓手
- 足够多的数据
- 数据质量
- 合适的工具
- 分析结果的呈现
1.4 数据分析流程
1.数据采集
2.数据整理
3.制表
4.数据分析
5.数据展示
怎样成为数据分析高手
- 工具
- 业务
2.数据分析的理论、工具与模型
峰度与偏度:峰度反应的是数据中极值的情况;偏度是衡量数据对称性的一个重要指标。数据左篇,偏度>0;
相关分析与关联分析:相关分析反应的是在发生变动时,变量互相之间的“互动”关系;关联分析常用在购物篮分析中,指用户在购买一件商品之后,会不会购买下一个物品。
3.制表
Microsoft Query 在这本书里,感觉就是把不同的数据拼接起来,然后筛选过滤,不想深究。
SQL
找到数据中的“特殊分子”
异常值:
什么是业务中的异常值?“偏离了原来数据的变化轨迹,就可以视为异常值
判断标准:
- 特别大(小) 超过平均值的50%以上或者小于平均值的50%以下。
- 脱离箱体
- 趋势变化, 如果一个值一直是上升的,现在突然下降了。
- 变化率的下降
用绘图的方式(散点图)来检验异常值。
3倍标准差。
相关分析与决策树
person相关,就是分析数据的变动量之间的关系。相关系数 = A数据的变化率/B数据的变化率
聚类 决策树 回归 逻辑回归
回归就是回顾,就是从过去的数据中寻找规律,然后运用这个规律来推测数据将来的变化。
网友评论