样本
分析
检验
大数定理 试验次数够多 频率近似于概率,样本均值=总体均值
中心极限 多次采样后的平均值会趋近于正态分布,且方差越来越小
u均值 sigma^2/n方差
1.样本中的陷阱
>搜集样本
样本太少/成本过高/采样偏差/分层抽样不合理
>幸存者偏差 加强机翼还是机身
机身弹孔少,机翼弹孔多
死掉的人看不到
所以其实是机身中弹少的地方加固
根据已有用户数据,评估借钱用户的风险
1000个人 批了800个,800人有10%逾期
所以不是1000是10%逾期。
抽出的样本比起原来的已经变了
>辛普森悖论
逾期率 30岁以下 30岁以上
合理分层类别
2.分析中的陷阱
可视化
缺失值 填什么要看分布
平均数,中位数等等
3.结论中的陷阱
>相关性和因果性
因果不能够颠倒
海拔和温度
>假设检验
abtest 新方案通过率均值提高了1%
要看原来的base 数据量
网友评论