正文
一些网站分析工具会使用抽样数据(Sampled Data)。比如,谷歌分析(Google Analytics /GA)在报表里会展示抽样数据。
文章里我会解释抽样数据会给你做分析带来的问题。
数据抽样(Data Sampling)
数据抽样会产生严重的问题。
谷歌分析(Google Analytics / GA),会将数据进行抽样,在一些情况中,GA报表中展示的数据会是抽样数据。
一般场景是当一个GA 媒体资源属性(Property)所收集的数据超过了该资源属性的上限时,GA就会在其报表中显示抽样数据。
GA数据是如何被抽样的?
在以下场景中,数据会被抽样:
- 报告中每天有50,000行以上的预汇总数据时。
- 报告中有500,000个访问来自非汇总数据时。
当数据被抽样时,你的数据报告就不再精确了,而且GA也会向你展示如下信息,以表示该报告是以抽样数据为基准的:
"本报告以100,000访问次数为基准(占总访问次数的10%)"
GA数据抽样会导致什么问题?
举例而言,在你所选取的日期区间内,本来有1,000,000个访问。通过数据抽样,GA选取了当中的100,000个访问(假设是总访问次数的10%),把所有的数值乘以10倍,然后生成了你需要的报告。
假设,你GA帐号某时间段记录了1,000,000个访问,当中的10,000个访问(=1%)是属于某一个来源访问地址(referring URL=example.com)。如果要选取10%作为样本来计算,GA就会从1,000,000个访问中随机抽取100,000个。这100,000个访问中,GA很可能随机抽取了2,500个来自这个访问地址(example.com),然后将2,500乘以一个比例,得出一个“估计值” - 2,500是原来10,000的4分之1。最后,通过这样的数据抽样方式将数据汇报到平时的GA报表中。
通过数据抽样的方式,将数据汇报到平时的GA报表中后,你的数据就面临极不精准的问题。我稍后继续说明不精准的数据会带来什么样的数据分析问题。
在GA抽样数据上,如何使数据更精准?
在GA报告中,你可以选择增加抽样的样本量以提升精准性,或者降低样本量,以提升报告的生成速度。是两者二选一。
当然我们希望增加样本量,让GA基于更大的样本基数来运算,生成你的报表。
比如,GA一开始提供的标准抽样基数会比较低:
"此报告基于50,000个访问(总访问次数的5%)来计算"
你在GA帐号里手动提升了抽样基数后:
"此报告基于200,000个访问(总访问次数的20%)来计算"
GA数据抽样问题最终解决了吗?
免费版的GA,抽样问题无法完全避免,只能降低其影响。
你是可以通过GA帐号里的一个滑块开关来增加样本量,增加样本量后,GA报告的数据精准性会增加。但是,GA本来就有精度上限,你也只能把精度提升到比如20%(为最大值),所以GA报表中的数据出现的精度问题(或),抽样数据以后带来的问题,还是不能解决。
GA中的抽样数据无法解决!
抽样数据带来的问题
因为是从GA取得的是抽样数据,所以会碰到的问题包括:
- 如果是电商业务,有可能发生的是你GA订单数据的细节跟你业务数据库里的订单数据对不上号。
- 你很可能希望把用户数据做成用户轨迹(User Clickstream),但在建用户轨迹模型时,你会发觉当中缺数据。
使用GA的另一个麻烦问题是:你的网站分析数据其实是存放在Google的服务器上,你并没有自己保存一份完整的原始数据。以后你要做复杂的数据细分、比较、建模,前提是需要先有完整的原始数据,但是你没有保存一份。所以就别想要做复杂的细分、比较、建模了。
解决方法是:
首先,你会需要自己保存自己的网站分析数据。
小富分析 / Folks Analytics 可以彻底解决了抽样数据问题!
我们自己研发的小富分析(Folks Analytics)解决了抽样数据的问题。
- 小富分析提供“全部”数据 – 不管是监测你的PC网站、移动端H5网站、iOS APP还是安卓APP,都能够提供“非抽样”的全部数据。比起GA要强大!
- 你可以通过CSV表格下载你的“全部”数据。
- 你也可以通过编程SQL语句去生成并下载你的“全部”数据。
相关阅读
假如对数据分析技术有兴趣,推荐阅读我写的书,可以免费网上阅读数据分析技术白皮书:
我的个人微信号二维码
需要联系,就请扫二维码。
网友评论