方法:描述统计、推断统计
数据:数值数据和分类数据(类别、文本,不能进行计算)
分类数据描述统计:频数统计、频数百分比
数值数据描述统计:统计度量(平均数:当数值差异性很大,平均数会被拉大或拉小、中位数、众数)、图形
分位数:第一分位数:25%分位数、第二分位数:中位数、第三分位数:75%分位数
方差:描述离散程度,数据波动性
标准差:方差是平方,实际业务中没有“平方”,所以需要开方,即为标准差,有+-之分
数据标准化:Z-Score,将两组数据放在一个可对比的维度,比如销量和温度
量纲:单位;当观察日期和某业务数据关系时,可以将日期分解为按周和星期
切比雪夫定理:至少有75%的数据,位于平均数2个标准差范围内;至少有89%的数据,位于平均数3个标准差范围内;至少有96%的数据,位于平均数5个标准差范围内
可视化:箱线图、直方图(对称型、陡壁型、锯齿型、孤岛型、偏锋型、双峰型)
切比雪夫定理V2.0
正态分布中,至少有68%的数据,位于平均数1个标准差范围内
正态分布中,至少有95%的数据,位于平均数2个标准差范围内
正态分布中,至少有99.8%的数据,位于平均数3个标准差范围内
概率
事件:{正面,反面}
概率:各50%
补集、交集、并集
韦恩图
P(A∪B)=P(A)+P(B)-P(A∩B)
P(A|B)=P(A∩B)/P(B)
P(A|B)=P(A)
贝叶斯定理:结果A已经发生了,通过结果A反推真实原因可能性有多大
三道题
1、参加营销活动的人群中,女性只有30%,能否说明女性不爱参加活动?
2、某城市有两种颜色的出租车,蓝车和绿车市场比率15:85。一辆出租车夜间肇事逃逸,当时一位目击证人认出出租车是蓝色的。经过相同环境下对“蓝绿”测试得到:80%情况下识别正确,20%不正确,实际为蓝车可能性?
3、假设1000条正常短信中,包含“澳门赌场”的短信有2条,在垃圾短信中,包含“澳门赌场”的短信有400条。现在接收了一条新短信,在不浏览内容情况下,假设正常几率50%。现在解析短信内容,发现了澳门赌场这个词,它是垃圾短信的概率有多高?
网友评论