谷歌分析数据抽样问题

作者: gordonchoi | 来源:发表于2016-09-20 21:37 被阅读327次

正文

一些网站分析工具会使用抽样数据(Sampled Data)。比如,谷歌分析(Google Analytics /GA)在报表里会展示抽样数据

文章里我会解释抽样数据会给你做分析带来的问题。

数据抽样(Data Sampling)

数据抽样会产生严重的问题。

谷歌分析(Google Analytics / GA),会将数据进行抽样,在一些情况中,GA报表中展示的数据会是抽样数据。

一般场景是当一个GA 媒体资源属性(Property)所收集的数据超过了该资源属性的上限时,GA就会在其报表中显示抽样数据。

GA数据是如何被抽样的?

在以下场景中,数据会被抽样:

  • 报告中每天有50,000行以上的预汇总数据时。
  • 报告中有500,000个访问来自非汇总数据时。

当数据被抽样时,你的数据报告就不再精确了,而且GA也会向你展示如下信息,以表示该报告是以抽样数据为基准的:

"本报告以100,000访问次数为基准(占总访问次数的10%)"

GA数据抽样会导致什么问题?

举例而言,在你所选取的日期区间内,本来有1,000,000个访问。通过数据抽样,GA选取了当中的100,000个访问(假设是总访问次数的10%),把所有的数值乘以10倍,然后生成了你需要的报告。

假设,你GA帐号某时间段记录了1,000,000个访问,当中的10,000个访问(=1%)是属于某一个来源访问地址(referring URL=example.com)。如果要选取10%作为样本来计算,GA就会从1,000,000个访问中随机抽取100,000个。这100,000个访问中,GA很可能随机抽取了2,500个来自这个访问地址(example.com),然后将2,500乘以一个比例,得出一个“估计值” - 2,500是原来10,000的4分之1。最后,通过这样的数据抽样方式将数据汇报到平时的GA报表中。

通过数据抽样的方式,将数据汇报到平时的GA报表中后,你的数据就面临极不精准的问题。我稍后继续说明不精准的数据会带来什么样的数据分析问题。

在GA抽样数据上,如何使数据更精准?

在GA报告中,你可以选择增加抽样的样本量以提升精准性,或者降低样本量,以提升报告的生成速度。是两者二选一。

当然我们希望增加样本量,让GA基于更大的样本基数来运算,生成你的报表。

比如,GA一开始提供的标准抽样基数会比较低:

"此报告基于50,000个访问(总访问次数的5%)来计算"

你在GA帐号里手动提升了抽样基数后:

"此报告基于200,000个访问(总访问次数的20%)来计算"

GA数据抽样问题最终解决了吗?

免费版的GA,抽样问题无法完全避免,只能降低其影响。

你是可以通过GA帐号里的一个滑块开关来增加样本量,增加样本量后,GA报告的数据精准性会增加。但是,GA本来就有精度上限,你也只能把精度提升到比如20%(为最大值),所以GA报表中的数据出现的精度问题(或),抽样数据以后带来的问题,还是不能解决。

GA中的抽样数据无法解决!

抽样数据带来的问题

因为是从GA取得的是抽样数据,所以会碰到的问题包括:

  • 如果是电商业务,有可能发生的是你GA订单数据的细节跟你业务数据库里的订单数据对不上号。
  • 你很可能希望把用户数据做成用户轨迹(User Clickstream),但在建用户轨迹模型时,你会发觉当中缺数据。

使用GA的另一个麻烦问题是:你的网站分析数据其实是存放在Google的服务器上,你并没有自己保存一份完整的原始数据。以后你要做复杂的数据细分、比较、建模,前提是需要先有完整的原始数据,但是你没有保存一份。所以就别想要做复杂的细分、比较、建模了。

解决方法是:

首先,你会需要自己保存自己的网站分析数据。

小富分析 / Folks Analytics 可以彻底解决了抽样数据问题!

我们自己研发的小富分析(Folks Analytics)解决了抽样数据的问题。

  • 小富分析提供“全部”数据 – 不管是监测你的PC网站、移动端H5网站、iOS APP还是安卓APP,都能够提供“非抽样”的全部数据。比起GA要强大!
  • 你可以通过CSV表格下载你的“全部”数据。
  • 你也可以通过编程SQL语句去生成并下载你的“全部”数据。

官网:FolksAnalytics.Net

相关阅读

假如对数据分析技术有兴趣,推荐阅读我写的书,可以免费网上阅读数据分析技术白皮书

我的个人微信号二维码

需要联系,就请扫二维码。

相关文章

  • 谷歌分析数据抽样问题

    正文 一些网站分析工具会使用抽样数据(Sampled Data)。比如,谷歌分析(Google Analytics...

  • 信用评分卡模型-抽样

    2.抽样 抽样在我们数据分析的过程当中是经常操作的一种,那么为什么要进行抽样呢? 当我们的数据量很大,分析软件的处...

  • 2019-03-27之Excel使用技巧

    如何进行抽样、匹配、批量复制和批量查找关键词? 一、抽样 从 文件-选项-加载项-转到-数据分析工具-数据分析-抽...

  • 抽样与估计

    1、抽样数据-数据分析-抽样 2、区间估计EXCEL没有直接的方法得出置信区间,因此需要记住公式。 mean-Ζα...

  • 数据分析中常用的数据模型

    关键词:常用的数据模型、常用的数据模型有哪些、数据分析师、数据分析 数据模型 一、抽样分析模型 建模方法 首先确定...

  • Nhanes数据库介绍及使用(三)

    1. 复杂抽样的方差估计 复杂抽样与简单随机抽样不同,方法学上的差异也导致了数据分析时的差异。以方差估计为例,简单...

  • 数据分析基础—4.2 数据清洗

    在数据分析中,抽样采集的样本数据往往存在各种异常情况,如大量缺失,错误数据、重复数据等,直接影响数据分析效果...

  • 数据分析基础—4.2 数据清洗

    在数据分析中,抽样采集的样本数据往往存在各种异常情况,如大量缺失,错误数据、重复数据等,直接影响数据分析效果...

  • 数据分析入门-基本概念

    SAS提出了一套数据分析的流程1.抽样S:导入,过滤选取某些条件的样本,抽样2.探索E:数据分布是什么样子的?平均...

  • 「内容营销技术与方法」刷楼评论集(十)

    20171115 网站分析工具GA 本节课讲到 GA 抽样数据。 参考文献:《如何理解Google Anal...

网友评论

本文标题:谷歌分析数据抽样问题

本文链接:https://www.haomeiwen.com/subject/daqiettx.html