我来答下磊叔【数据分析面试30题】专栏的小作业。
题目:微信日某一日的用户上亿,你如何算出这一日的男女比例?
解题思路:上亿的数据量,硬件人力软件时间都配齐肯定能算出来,但这明显浪费资源嘛。
既然不能硬算,那就自然想到估计法了。也就是抽样统计。
1.如何抽样?抽取的样本决定了估算的数值跟总体的偏差,怎么样尽量抽取一个无偏样本呢?对于这样大型的混合数据,我的思路是按照时间顺序每隔1千个数据,抽取一个数据,总共抽取上万个数据形成一个样本。(上万的数据用普通的分析软件如python都是可以轻松分析的。而且样本越多估计的准确性越大)
2.如何用样本估计总体?
一:用样本男生女生的比例来估计总体的比例,假设是无偏样本,理论上样本的比例的期望就是总体的比例,但是这样贸贸然说一个数值极有可能不对,毕竟只是估计
二:找出一个区间!样本(数量上万)的比例的分布符合正态分布,且分布的均值和方差可以计算出来,所以我们设置一个置信区间95%,得出在此置信区间下的比例在【a,b】范围内。那么最后结果就是样本男生比例在【a,b】的范围(95%置信区间)
网友评论