美文网首页
【阅读笔记004】之《数据产品经理修炼手册》

【阅读笔记004】之《数据产品经理修炼手册》

作者: T1213orz | 来源:发表于2019-12-25 20:19 被阅读0次

1.从受众用户群体来看,数据产品可以分为三类:

(1)企业内部使用的数据产品。如自建BI数据分析平台和推荐系统等, 这里之所以提到推荐系统, 是因为它与用户画像、 搜索排序类似的算法一样, 本质上是根据用户数据和相应的数据模型建立的一套评分标签体制, 也属于数据产品的范畴。

(2)企业针对公司推出的商业型数据产品。 如Google Analytics、GrowingIO、 神策数据和BDP商业数据平台等, 它们主要以平台行为为其他公司提供商业化服务。

(3)每个用户均可使用的数据产品。 如猫眼的实时票房和淘宝指数等, 这类产品主要面向普通用户, 而且大部分提供免费服务。

2.真正的数据产品是建立在大数据场景下通过数据挖掘并且体现数据价值后的产品化, 最后再融合进业务产品流程中做辅助业务和驱动业务发展。

3.上钻:从当前数据往上回归到上一层数据。例如:(某数据的分类下面分为品名)从品名列表收拢到分类列表。下钻:从当前数据往下展开下一层数据。例如:(某数据的分类下面分为品名)从分类列表展开到品名列表。

上钻、下钻统称钻取。

4. 人类认识活动, 总是先接触到个别事物, 而后推及一般, 又从一般推及个别, 如此循环往复, 使认识不断深化。 归纳就是从个别到一般, 演绎则是从一般到个别。

5. 演绎的方式: 大前提—小前提—结论。

大前提:一个客观事实。

小前提:属于上面那个事实的子范畴, 子范畴就是其中的一个点,包含在事实的基础上。

结论:根据相关性得出结论。

6.数据分析方法一般有常规分析、 统计模型分析和自建模型分析。 只要掌握了这三种分析方法, 就能解决大部分分析需求, 并可以把分析需求固化为数据产品。

其实很多公司80%的分析需求都可以通过常规分析解决,很多数据分析师一般把业务相关数据从Hive或者MySQL中导入Excel, 然后在Excel中通过简单的表格、线图等方式直观地分析数据。 常规分析经常会用到同比和环比分析法与ABC分析法, 即分析对比趋势和分析占比情况。

7.同比和环比的定义如下:

同比: 某个周期的时段与上一个周期的相同时段比较, 如今年的6月比去年的6月, 本周的周一比上周的周一等。

同比增长率=(本期数-同期数)/同期数×100%

环比: 某个时段与其上一个时长相等的时段做比较, 比如本周环比上周等。

环比增长率=(本期数-上期数)/上期数×100%

8.ABC分析法一般以某一指标为对象, 进行数量分析, 以该指标各维度数据与总体数据的比重为依据, 按照比例大小顺序排列, 并按照一定的比重或累计比重标准, 将各组成部分分为A、 B、 C三类。 例如, 经过长期的观察发现, 美国80%的人只掌握了20%的财产, 而另外20%的人却掌握了全国80%的财产, 而且很多事情都符合该规律。

9.Hadoop是一个分布式系统基础架构, 现在被广泛地应用于大数据平台的开发, 对处理海量数据有着其他技术无可匹敌的优势。

HDFS(Hadoop Distributed File System) 、 MapReduceHBase被誉为分布式计算的三驾马车。 Hadoop基本架构的底层是HDFS, 上面运行的是MapReduce、 Tez、 Spark, 再往上封装的是Pig和Hive。

10.根据大数据平台架构中流入和流出的过程, 可以把其分为三层——原始数据层、 数据仓库、 数据应用层。

原始数据层, 也叫ODS(Operational Data Store) 层, 一般由基础日志数据、 业务线上库和其他来源数据获得。

数据仓库的数据来自对ODS层的数据经过ETL(抽取Extra, 转化Transfer, 装载Load) 处理。

11.对于ODS层而言, 客户端用户操作日志是一个主要的数据来源, 它是分析App和产品优化的基础; 另一部分来源于业务的数据库, 例如订单的交易情况。 ODS层的表通常包括两类, 一类用于存储当前需要加载的数据, 另一类用于存储处理完后的历史数据。 历史数据一般保存3~6个月后需要清除, 以节省空间。 但不同的项目要区别对待, 如果源系统的数据量不大, 可以保留更长的时间, 甚至全量保存。

12.ODS层是当前的、 不断变化的数据, 而数据仓库保留的是历史的、不再变化的数据, 所以一般来说会落后ODS层一天或一天以上的数据。

13.为什么需要ODS层呢? 一般在带有ODS层的系统体系结构中, ODS层具备以下几个作用:

(1) 在业务系统和数据仓库之间形成一个隔离层。

一般的数据仓库应用系统都具有非常复杂的数据来源, 这些数据存放在不同的地理位置、 不同的数据库、 不同的应用之中, 从这些业务系统中对数据进行抽取并不是一件容易的事。 因此, ODS层用于存放从业务系统中直接抽取出来的数据, 这些数据从数据结构、 数据之间的逻辑关系上都与业务系统基本保持一致, 因此在抽取过程中极大地降低了数据转化的复杂性, 而主要关注数据抽取的接口、 数据量大小、 抽取方式等方面的问题。

(2) 转移一部分业务系统细节查询的功能。

在数据仓库建立之前, 大量的报表、 分析是由业务系统直接支持的, 在一些比较复杂的报表生成过程中, 对业务系统的运行产生了相当大的压力。 ODS层的数据在粒度、 组织方式等方面都保持了与业务系统的一致, 那么原来由业务系统产生的报表、 详细数据的查询自然能够从ODS层中进行, 从而降低了业务系统的查询压力。

(3) 完成数据仓库中不能完成的一些功能。

一般来说, 在带有ODS层的数据仓库体系结构中, 数据仓库所存储的数据都是汇总过的数据和运营指标, 并不存储每笔交易产生的详细数据, 但是在某些特殊的应用中, 可能需要对交易详细数据进行查询, 例如跟踪埋点错误的问题, 这时就需要把详细数据查询的功能转移到ODS层完成, 而且ODS层的数据模型按照面向主题的方式存储, 可以方便地支持多维分析等查询功能。 即数据仓库从宏观角度满足企业的决策支持要求, 而ODS层则从微观角度反映细节交易数据或者低粒度的数据查询要求。

14.数据仓库(Data Warehouse, DW) 是为了方便企业快速做各种业务决策提供数据支撑而构建的集成化数据环境。 有一句话能很好地体现数据仓库的这一点, 数据仓库本身并不“生产”任何数据, 同时自身也不需要“消费”任何数据, 数据来源于外部, 并且开放给外部应用, 这也是为什么叫“仓库”, 而不叫“工厂”的原因。

根据数据仓库处理的数据层次不同, 数据仓库主要分为基础层、 主题层、 数据集市这三层。

15.大数据的分析应用主要分为以下三种形式。

第一种是描述性分析应用。 主要用来描述所关注的业务的数据表现, 主要关注事情表面发生了什么, 在数据分析之后, 把数据可视化展现出来, 让用户可以了解业务的发展状况。

第二种是预测性分析应用。 在描述性数据的基础上, 根据历史数据情况, 在一定的算法和模型的指导下, 进一步预测业务的数据趋势。 例如, 美国历年的总统大选预测结果、 天气预报预测天气等都属于预测性分析。

第三种是指导性分析应用。 基于现有的数据和对未来的预测情况,可以用来指导完成一些业务决策和建议, 例如为公司制订战略和运营决策, 真正通过数据驱动决策, 充分发挥大数据的价值。

16.数据埋点, 是一种常用的数据采集方法。 埋点是数据的来源, 采集的数据可以帮助业务人员分析网站或者App的使用情况、 用户行为习惯等, 是后续建立用户画像、 用户行为路径等数据产品的基础。

前端的埋点方式主要分为代码埋点、 可视化埋点、 无埋点三种。

1.代码埋点

代码埋点主要由App研发工程师手工在程序中写代码实现, 通过触发某个动作后程序自动发送数据。 优点: 具有很强的灵活性, 可以控制发送的时机和发送方式等。 缺点: 人力成本较高, 需要研发工程师手工开发程序, 有时候还要依赖App发版来生效。

2.可视化埋点

可视化埋点以前端可视化的方式记录前端设置页面元素与对其操作的关系, 然后以后端截屏的方式统计数据。 优点: 简单、 方便, 能够快速地埋点。 缺点: 比较受限, 上报的行为信息有限。

3.无埋点

无埋点绑定页面的各个控件, 当事件触发时就会调用相关的接口上报数据。 优点: 不需要埋点, 方便、 快捷、 省事。 缺点: 传输数据量比较大, 需要消耗一定的数据存储资源。

其实数据埋点不仅有客户端前端埋点, 还有服务器后端埋点, 它能够收集不在App内发生的行为, 只要有网络请求就可以记录下来, 它能够实时收集, 不存在延时上报的问题, 但是没有网络就很难收集到数据, 这也是服务器后端埋点的一个弊端。

17.在记录埋点信息时, 主要的埋点事件分为点击事件、 曝光事件和页面停留时长三类。

18.企业对大数据分析平台的应用目前主要有以下三种:

(1) 在开源产品上搭建大数据分析平台。 这个过程比较烦琐, 还要对细节了解得比较清楚, 如果后期根据业务做自定义扩展, 则需要修改源码, 优点是前期能够迅速搭建一个可用的大数据分析平台。 现在市场上主流的在开源产品上搭建的大数据分析平台主要有Airbnb开源的Superset、 Grafana等。

(2) 商业版付费大数据分析平台。 现在市面上有很多比较通用的BI分析平台, 例如比较流行的Tableau、 BDP等, 还有从埋点开始全流程数据服务的GrowingIO、 神策数据等。 如果公司没有研发资源投入, 则可以考虑采用商业软件服务, 还包括一些定制的业务分析等, 这些公司一般会根据企业的数据量级收费。

(3) 自建大数据分析平台。 现在很多中型以上的公司, 都会配备自己的大数据部门进行数据的存储、 清洗、 分析、 展现等工作, 也有足够的研发实力自建大数据分析平台, 这样做的优点是可以根据自己的业务定制开发, 实现满足自身业务需求的平台, 缺点当然就是要投入一定的研发资源, 前期需要有一定的技术积累。

19.无论用哪种方式实现大数据分析平台, 都要满足三大构建原则, 以确保大数据分析平台的实用性。

(1) 安全性。大数据分析平台应采取安全性高的访问认证机制,同时在平台建设中要充分重视系统自身的安全性, 并保证数据的安全性。

(2) 可扩展性。大数据的分析和应用是一项长期持久的工作, 随着业务的变化, 企业对于大数据分析平台的功能和要求也会不断变化。因此, 要求平台的设计和研发要具有良好的扩展性, 以满足业务不断发展变化的要求。

(3) 灵活性。在平台的设计和实施中要考虑与其他应用系统的整合, 能够实现多种类型的接口, 并可以灵活地接入其他系统中, 拓展服务类型和服务能力。

20.折线图:一般应用于显示趋势, 查看一段时间范围内数据的波动情况等。

堆积区域图:堆积区域图强调数量随时间而变化的程度, 也可用于引起人们对总值趋势的注意。

柱状图:用来比较2个或2个以上的指标(不同时间或者不同条件) , 只有一个变量, 通常用于较小的数据集分析。

饼图:饼图显示一个数据系列中各项的大小与各项总和的比例, 主要应用于看不同构成元素之间的百分比情况。

漏斗图:漏斗图适用于业务流程比较规范、 周期长、 环节多的流程分析, 通过漏斗各环节业务数据的比较, 能够直观地发现和说明问题所在。

留存图:留存图主要用来衡量新用户后续的行为表现, 也就是后续时间点的留存率情况。

21.用户行为分析平台主要有事件分析、 留存分析、 转化分析、 用户分群、 用户行为细查、 用户行为路径分析等功能, 通过精准数据分析可以提升企业营销、 产品、 运营的转化率, 使企业经营更科学、 更智能。

① 事件分析, 是指基于事件的指标统计、 属性分组、 条件筛选等功能的查询分析。事件分析有着强大的即时性、 可视性和灵活性。

② 留存分析是一种用来分析用户参与情况、 活跃程度的分析模型, 通过对用户在产品中的留存现象进行分析, 判断用户参与情况与活跃程度的关系, 并观察在发生起始事件的用户中, 有多少发生了回访事件。 通过留存分析, 我们能够得知为什么用户在使用后能回到我们的产品中,或者为什么流失了, 从而判断产品对用户的黏性, 衡量产品功能对用户的价值。

留存率的计算公式: 某一天的N日留存率=该天的N日留存用户数/该天的目标用户数

③ 用户分群被称为精细化运营的第一步,用户分群的两种常用方式: 按用户画像属性分群和按用户行为属性分群。

a.按用户画像属性分群

根据用户画像分群, 即把用户信息标签化, 打标签的标准主要依照用户的社会属性、 生活习惯、 消费行为等。 用户分群的画像的主要工作是为用户群打标签, 标签就是人为抽象出来的用来高度概括、 总结某类用户的分组。

b.按用户行为属性分群

按用户行为属性分群说的是基于用户在使用网站或者应用时的行为进行细分。 按用户行为属性分群可以有两个参照标准: 用户来源渠道和用户在网站或者应用内的行为步骤。

④ 用户行为路径分析是互联网行业常用的一种数据分析方法, 它可以用来追踪用户从某个事件开始到某个事件结束过程中所经历的所有路径, 是一种检测用户流向, 从而统计产品使用深度的分析方法。

相关文章

网友评论

      本文标题:【阅读笔记004】之《数据产品经理修炼手册》

      本文链接:https://www.haomeiwen.com/subject/qzaqoctx.html