什么是数据
互联网里的数据是指我们在使用互联网产品时发生的行为所沉淀下来的结果。例如,我们在电商网站上浏览商品进行购物时会产生商品浏览记录的数据,当我们完成商品购买时会产生购买记录数据。我们在使用微信进行沟通和发布朋友圈时也会产生大量的数据,这些数据都会被记录下来并且存储在数据库中。
(对,微信是会存用户聊天记录的。如果他想分析你,他能比你还了解你自己。)
这些数据可以被用来进行分析,例如根据用户浏览商品的记录数据动态地给用户推荐相关的产品,还可以使用大量的数据分析和预测用户行为,这个过程我们称为大数据。OK,大数据不仅仅是一个名词,还是一个动词。
数据分类及数据分析
在互联网上产生的数据主要分结构化数据和非结构化数据两类。简单地说,结构化数据就是按照固定的格式和结构存储的数据,好比我们按照格子一个个存放数据;非结构化数据是对一些零散型数据的集中管理,好比我们在一个格子里放上很多零散的东西。
这两种数据分类基本囊括了互联网上产生的所有数据,针对这两类数据的分析也都可以挖掘出对应的价值。例如,通过分析结构化数据我们可以预测数据走势,提前预判风险,通过分析非结构化数据可以进行一些行为分析和相关推荐。接下来,我们就分别了解结构化数据和非结构化数据,以及数据分析的具体内容。
结构化数据
结构化数据是按照一定的数据规则存储的数据。好比一个标准的大型图书馆,这个图书馆里的图书就是数据,每一本书是按照固定编号和分类进行存放和管理的。我们要调取哪一本书,只需要按照固定编号进行查询检索,而且我们可以对图书馆的书籍进行不同维度的数据检索分析,例如按照出版年份、出版社、书目类型等。
非结构化数据
非结构化数据大多数都是一些零散的、没有一定规律的数据。例如用户在电商网站上浏览商品的浏览记录数据,或者一些系统的操作日志等,这些不是按照一定的规则进行结构化存储的数据都叫作非结构化数据。例如图片、视频、音频等数据都属于非结构化数据。与结构化数据相比,非结构化数据的采集和分析更复杂,非结构化数据的数据量也要大很多。
非结构化的数据,可以这么用。例如某个用户的浏览记录通常都是覆盖在经济管理类图书和鞋类商品上的,通过对这些浏览数据的分析,我们可以判断出这个用户的使用行为,基于这个行为结论,我们可以向这个用户推送经济管理类的书籍和鞋类商品,以此提高用户对产品内容的关注度和成交率。这就是非结构化数据能带来的实际好处,能基于大量的数据进行决策分析。
UV/PV
UV(Unique Visitor)是网站独立访客和独立用户的意思,指访问某个网站的独立IP的数量,通常计算的周期是自然日的0点到24点。UV可以反映出用户活跃度,也可以反映出在某一个固定周期内用户使用产品的情况。
理论上,UV统计的是独立IP在一个周期内的访问,一台计算机的当前IP地址通常都是固定的,互联网中每个接入网络的设备都有一个唯一的IP地址,可以通过唯一的IP地址统计访问站点的访客数量。
假如某网站只有一个用户访问,用户在一天当中打开并访问了这个网站3次,而且每次IP地址都是固定的,那么在这一天,这个网站的UV数就是1,因为对这个网站来说,只有一个IP地址访问了它。但是如果这个网站在当天有来自10个不同的IP地址的用户访问了,每个用户都访问了10次,那么这个网站这一天的UV数就是10。通过UV统计,可以得出产品的活跃用户数。通过这个指标可以判断在某一个固定周期内,产品的独立访问用户数,UV指标可以用来分析产品的活跃情况。
PV(Page View)通常是指网站的页面访问量,和UV不同的是,PV统计的是用户打开网站的次数。如果用同一台计算机的同一个用户,在一天的时间内多次重复访问了网站,那PV数就是该用户当天实际访问该网站的次数。
PV指标能反映产品中某个页面的访问频率,通过每个页面的PV数,我们可以统计出转化率,统计用户以哪种使用路径访问时的PV指标是最高的,通过数据统计并反映出用户使用产品的主路径,在优化产品时可以围绕这个主路径进行优先优化。
通过产品PV指标我们还可以进行一些分类测试,比如我们做一个图片展示入口有两个可选方案时,如果不确定哪个方案更好,就可以把两个方案都放上,然后通过统计目的页的PV数进行判断,PV数高的说明用户喜欢这个方案并且愿意点击进来,自然我们就可以通过数据验证哪一种方案是更好的方案。
DAU/MAU
DAU(Daily Active User)是指日活跃用户,记录一天内独立用户登录或使用产品的次数。MAU(Monthly Active User)是指月活跃用户,记录在一个自然月内用户的活跃度。
加餐:还有一个数据是DAU/MAU,反应用户粘性的数据。日活用户数/月活用户数(DAU/MAU)这个指标最早是Facebook带火的。这是一个衡量用户活跃度的重要指标,但是这个指标未必适合所有的产品。具体可见:
https://baijiahao.baidu.com/s?id=1607289332495570973&wfr=spider&for=pc
GMV
GMV(Gross Merchandise Volume)全称为商品交易总额,是一种反映平台交易总量的数据指标。一般在电商类产品里经常提到GMV,GMV不是指成交总额,而是指发生的商品交易总额,例如用户在淘宝上下订单了但是还没有支付,那么这个商品的交易额度也会被计算进入GMV。GMV反映了一个交易平台的交易活跃情况,商品在平台上的流转是通过用户的购买行为触发的。用户下订单越多,平台的GMV就越高,平台的交易总额也越高。 GMV数据指标只能从一个侧面反映平台的交易活跃度,交易类平台关键还是看总成交量。
转化率/留存率
转化率是统计一个大范围的运营活动或者产品动作转化出有效用户的比例。转化率通常衡量的是投入产出比,低投入、高转化是所有产品和运营追求的目标。
留存率是指用户进入产品后,在一定的周期过后留存在产品中的用户比例。例如以某一天开始计算,当天进入产品的新用户是100人,一天后这一批人里有50个人继续使用产品,那这一天产品的留存率就是50%,依此类推。
留存率能体现产品在用户心目中的可用性,像微信就是一个活跃度和留存率都非常高的产品,因为用户每天都通过微信沟通进行社交,所以这款产品对用户的可用性很高,用户留存率自然就高。
数据仓库
数据仓库(Data Warehouse)可简写为DW,是一种对历史数据进行存储和分析的数据系统,通常是为企业根据过往数据进行分析从而制定相关决策而存在的。
数据仓库的数据来源通常是历史业务数据,例如历史订单及客户信息等,还包括一些系统的操作日志记录等。这些数据统一汇总存储至企业数据仓库,通过对数据仓库里的综合数据进行有目的的计算和分析,可以得出业务分析报告和历史数据报表等。数据仓库里的数据有一个特点就是有一定的延迟性,数据仓库里的数据通常是对历史数据进行的存储和分析,而实时数据都存储在图7-6中左侧的生产数据库中。
数据仓库不同于数据库,数据库是对实时数据进行存储和事务性处理的系统,对应的操作包括了新增数据或是对数据进行修改和查询,但是在数据仓库中通常只对数据进行查询操作。
简单地说,数据库是为捕获数据而设计的,数据仓库是为分析数据而设计的。以银行交易系统为例,每一笔交易数据(包括金额流入流出)都在数据库里有完整的记录,这种记录都是格式化的业务型数据。
数据可视化是指通过不同的视觉呈现方式,将数字数据通过生动形象的方式呈现出来,使数据查看者能以一种更直观方便的方式查看数据。数据可视化是对数据分析结果的展示,通过数据可视化能给决策者提供更直观生动的数据决策支持。
数据可视化是反映产品和业务整体情况最直观的方式,和前文提到的数据仓库相辅相成一起构成数据分析和数据展示的整体。数据仓库负责对数据进行存储分析,分析结果需要通过数据可视化技术以需要的方式呈现出来。
网友评论