做指标管理、数据分析已经2年了,工作已经慢慢有了套路,但对于数据的应用基本上还处于各单位分析,而我来汇总的初级阶段。对于数据的有效性核查基本也只能靠直觉,靠熟悉程度,经验的经历是一定的,但成长的速度可真的是看不见的慢。为了让自己有提升专业能力,提高对数据的分析应用,本年的自我提升特别加入了专业的学习,而且特别制定了第一阶段90天数据分析能力提升入门计划,简单来说就要增加输入,同时以输出倒逼输入。
90天数据分析能力提升计划
输入:
专业的书籍——统计、数据分析
系统的培训——数说1-3季
工具的学习——透视表、仪表盘
公众号、微博
输出:
10篇读书笔记
1个改进项目
1项专项分析报告
指标仪表盘初稿
学习数据分析,统计学可谓是必学的知识之一。相对于其他的统计学书籍,各种正态分布、卡方分布、T分布的晦涩概念,《极简统计学》的内容没有那么的学术化,案例也贴合工作、生活,整个篇幅也就200页,并且每章后都有练习题,非常适合统计学初学者自学。下面记录一下自己读书的一些关键点及启示。
一、几个重要的统计概念
1.统计、概率的区别
统计是对过去事件的概述
概率是对于未来将发生事件的描述
2.样本——母体
样本就是我们平时可以获取的数据。
母体就是藏在少数样本后的庞大的全部数据。
3.平均值——就是直方图的平衡支点,主要作用是抵消偶然的数据分散、得出与实际值接近的值
直方图就是数据的分组频次,很直观,但不便于口头的交流,而且需要很大的空间,因此引入平均值。
样本均值——总体均值:观测的数据越多,样本均值接近总体均值的可能性越大。
电力系统里的平均值都是常见的是总体均值,如户均配变容量、客户平均停电时间、平均售电单价。
4.方差、标准差——主要作用是表明数据的分散和波动,搞清楚数据的分散程度。
引子:看看下面2组数据
100 200 平均值150
140 160 平均值150
这两组数据仅用平均值衡量,明显不合理。
再来一个书中的例子
所有引入方差、标准差来表明数据的分散和波动,通过标准差就能衡量是否是特殊的数据。以冲浪为例,平均值就是平静的海水平面,而标准差就是浪涌的激烈程度。
样本方差就是各样本偏差平方再取平均值。
二、重要应用:
1.如何比较股票的优劣呢?——夏普比率
电网企业的数据应用启示:可以计算各月售电量、停电时间;各设备类别的报废资产净值率、95598各类别投诉数量等分析指标的标准差、方差的指标,用于分析指标是否异常。
2.利用正态分布进行预测——所谓95%的置信区间
一般正态分布:平均值为μ,标准差为σ。(标准正态分布平均值为0,标准值为1。)
(1)数据x是平均值为μ,标准差为σ的正态分布时,95%的预测命中区间的不等式为
电网企业的数据应用启示:可以根据历史数据计算总体的均值和标准差,进而计算95%的置信区间,做为数据收集、数据清理时的有效性检查。
(2)已知母体为正态分布,标准差σ已知,平均值μ未知,由观察的数据来对μ进行母体的区间估计。(实际情况较难实现标准差σ已知,可能出现的是机器生产已经给定标准差)
电网企业的数据应用启示:可以用于精益项目改善的前后的现状检查及效果评估。可以用于零售行业的销售情况的测算、可以用于统计各人员的操作时间计算等等。
3.利用T分布估算总体均值
T分布称为“自由度n-1的t分布”。这个分布非常近似于正态分布,主用通过计算样本均值和样本方差,来估算总体的均值。t分布是推论统计中最自然、最实用、最常用的方法。
4.利用卡方分布估算总体方差
网友评论