美文网首页我爱编程
《智能增长》---学习笔记

《智能增长》---学习笔记

作者: liujianhuiouc | 来源:发表于2018-03-14 23:55 被阅读0次

第一章 数据收集

智能增长的动力源泉来源于数据,数据是一切智能践行的基础。本章就数据采集议题进行了相关的回答。最近CTO也一直在提一个观点,要做到以终为始,任何数据采集的需求都要考虑到能否解决用户的问题,能否能产出最终的运营指标。如转化率、留存率、日活、订单等等。指标的产出可以按照深入度和优先级分为结果指标和过程指标。
结果指标

  1. 用户:新用户数、老用户数
  2. 交易:订单量、客单价
  3. 体验:评分分组、投诉率

过程指标

  1. 用户注册:APP下载量、用户注册量、用户登录量
  2. 用户留存:七日留存、七日转化

数据来源

  1. 用户端。通常通过埋点技术收集用户的行为轨迹信息,如页面的浏览、控件的点击、资源位的浏览等,基于这些数据可以查看用户的浏览轨迹和各个阶段的漏斗转化率,通过调整页面的路径和控件的部署来提供流量的有效利用,促使流量转化最大化。同时也能查看指定人群的流量转化率情况。
  2. 服务端。交易数据、支付数据的结果通常是在服务端产生,可以借助服务端埋点和数据库的变更日志(MySql的binlog)收集交易数据。

数据使用

  1. BI:运营活动的推广、产品的设计、UI模型的改版,通常均需要借助报表来做相关的决策分析,报表可以按照实时性分为离线和实时两种,对于大部分业务场景来说,离线报表基本上可以满足需求。但是对于一些广告投放、运营活动推广均需要实时的查看到相应的数据效果,实时报表相对于离线报表最大的好处就是数据及时性更好,但通常会牺牲一定的准确性作为代价。
  2. 标签:最常见的标签系统是用户标签,用户在系统进行注册后通常会有一个userid与之对应,系统可以整合平台内部的所有数据为用户建立一个画像机制,为后续的运营推广、风控、反欺诈等业务提供数据支撑。另外我们也可以针对设备维度、物品维度、商家维度建立相应的标签。另外可以利用数据挖掘、机器学习等手段基于基础标签数据产生一批衍生标签,比如用户偏好选择、用户流失概率、用户转化概率等等。

总之,在数据采集过程中要考虑数据的规范化和易用性,明确具体业务方和使用场景,做到数尽其用。


第二章 数据加工

上一章节我们讨论了数据采集的相关内容,原始数据通常不能直接用来应用,就像原油需要加工精炼后才能支持工业生产一样。原始数据通常面临数据格式混乱、夹杂各种脏数据、数据定义不一致等多种问题,需要引入一个数据加工环节来把原始数据进行清洗加工。数据的初加工可以从以下几个维度来进行处理:

  1. 数据格式的统一。日期统一用时间格式,金额统一用数值格式。
  2. 数据内容的统一。比如城市地名统一为“浙江省杭州市”,避免有些地方是“浙江杭州”,有些地方直接填写的“杭州”,日期统一为“yyyy-mm-dd hh:MM:ss”等。
  3. 量纲统一。金钱统一用分表示。
  4. 名词口径的统一。比如老用户的定义、增加率的定义等。
  5. 不同表相同字段民称的统一。用户id统一简写为uid,不要出现userid的情况。

数据清洗

  1. 数据缺失值的补充。原则:要求正确不强制精确,效率和易用性优先。有些用户标签数据也可以借助数据挖掘技术和机器学习的相关方法来进行深度挖掘。对于一些数值类的数据,可以采用平均数或者中位数来进行填充,中位数相对于平均数有一个优点在于可以避免一些异常点对整体数据的干扰,但是中位数的计算相对来说更加的复杂。
  2. 数据造假。数据造假通常分为数据欺诈和数据操作两种,其中数据欺诈没有发生具体业务行为,大部分是机器人进行操作,数据操作还是按照业务的规则的来进行有偏向性的操作,比如反复浏览一个页面来提高某个页面的搜索排名,通过购买自己商家的数据来提高商店的好评率,抹黑竞争对手的商铺排名。其中数据欺诈需要有单独的反欺诈团队负责处理。
    1.噪音数据的处理。
    关联分析
    关联分析通常用来分析物品之间的关联度,著名的关联分析案例是购买啤酒的用户有很大概率会购买尿布,因此商家可以把尿布和啤酒放在一起增加商品的销量。
    支持度:用户购买某种商品占所有购买记录的比例。某商店共发生了10000比交易,其中有购买啤酒的记录有2000条,那么啤酒的支持度就是0.2
    置信度:购买A商品的同时购买B商品的条件概率P(B/A)=P(AB)/P(A)
    K频繁项:如果A的K个时间的支持度大于最小支持度阈值,则称为A的K频繁项
    Apriori算法
    如果A是满足最小支持度阈值的事件,则A的子集一定满足最小支持度阈值,同理如果一个A不满足最小支持度阈值,那么其父集合也一定不满足最小支持度阈值。
    算法实现:
  3. 首先初始化一个L(1)最小1频繁项。
  4. 依次构建2、3、...、K项频繁项
    最终得到满足最小支持度阈值的最大的K频繁项,记录为Lk,然后计算Lk的相对于其真子集的条件概率,记录条件概率满足最小置信度的组合,则称Lku-》Lk符合强规则。

第三章 数据存储

数据经过采集、数据加工后,为满足具体业务场景的使用,需要将数据存储起来。公司、个人在进行场景活动时,经常需要查询所需的数据来为日常的决策提供参考。数据存储的目标时快速响应用户的查询使用需要,兼顾功能和效率的同时满足用户的查询需求。
大家必须承认没有一种数据存储模型和数据存储介质能够满足所有使用场景,需要我们为特定的领域问题建立合适的数据存储方法。
我们可以根据不同的维度来立体审视数据存储。数据存储包含两个方面

  1. 数据建模
  2. 数据存储介质

数据在进行存储之前,按照公司特定的业务场景设计匹配度最高的数据存储模型。数据存储模型设计可以分为粒度和分层的选取。
粒度划分标准

  1. 时间范围的扩大和缩小作为划分的标准
  2. 空间范围作为粒度的划分标准
  3. 数据的智能程度作为划分的标准

数据分层存储
数据分层按照从采集、加工、应用逐步上升的方式分为四层。

数据分层图
临时存储层:原始数据存储层,通常为最原始的采集数据,比如埋点数据、业务数据库同步数据,这一层的包含的信息是最全面的,但需要进行挖掘产出。
数据仓库层:数据在这一层次中按照模型进行数据的的加工、存储,通常会进行数据的清洗,数据的一致性处理(数据去重、去噪、数据补全、数据剔除等)。同时数据字段的命名和格式遵循一定的规划。
数据集市层:核心数据层,该层存储的数据不在是明细数据,是在上一层的数据基础上,经过数据的汇总满足具体业务的需求来进行数据的组织。
分析应用层:分析应用层通过是在多个数据主题集市域上汇总的数据,比如公司的核心报表,通过是在各个业务线的核心数据上进行构建的。

数据存储介质

  1. HDFS 分布式文件存储。存储数据量大、高可靠、存储成本低。访问延迟大、不利于存储大量小文件、不支持多用户操作
  2. 关系型数据库。数据存储空间有限,数据达到一定量级的时候需要进行分库分表。
  3. NoSQL数据库。

第四章 数据访问

数据访问方式分为正排索引访问和倒排索引访问。正排索引是按照主键的方式进行数据的访问,通常Redis、HBase等相关存储都是这样的数据访问方式,另外一种常用的访问方式是倒排访问,是指按照某些字段的属性值来访问数据的方式,过滤出数据中是杭州地区女性的用户数据,通常这样的数据存储到ElasticSearch中。
数据访问评估
数据访问通常可以按照查准率(准确率)和查全率(召回率)来进行评估,查询的条件越精确,准确率越高,但相应的召回率会降低。通过需要在这二者中取得一个平衡,学术界经常用F值来进行评估
F=(a2+1)PR/a2(P+R),其中P为准确率(Precision),R为召回率(Recall ),a为参数值,a2为a的平方。通常a取值为1,即我们常说的F1值。
提升访问效率

  1. 索引方式。查询尽量走索引,通过模糊查询是不走索引的,比如<> 、!=、not、in、like等,另外一些额外函数也不会走索引,比如select * from substr(a) = ‘a’,当查询条件中有多组组合时也不会走索引,比如or关键字关联的多个过滤条件。
  2. in方式改为exists方式。select * from a where a.id in (select b.id from b)改为select * from a exists (select b.id from b where b.id = a.id)
  3. 复制表结果不要采用额外消耗性能的方式。create table a as select * from b where 1 != 0

第五章 生命周期模型

生命周期模型常常用来衡量用户、商户、公司活动的生长规律的一种描述信息。生命周期模型描述了实体从开始到结束的各个阶段的状态变更,人们通过掌握各个阶段的变化状况来整合评估实体的健康状态,下面我们从用户生命周期和商户生命周期模型来介绍有关的概念、运营策略和价值,用于精准刻画用户和商业平台的动态关系。
用户生命周期模型

用户生命周期模型
用户生命周期一般按照顺序可以分为考察期、形成期、发展期、成熟期、衰退期和流失期。运营活动的目的是尽可能延迟用户的生命周期,我们可以通过流失率或者留存率来判断一个用户的平均生命周期。
用户生命周期=1/(1- 留存率)
比如某个平台的月留存率为50%,我们可以计算出用户生命周期1/(1-0.5)=2月。
用户生命价值
盈利=用户生命价值-用户获取成本-运营成本
通过从三个方面来看用户的生命价值,分别是用户数、留存率、客单价。我们可以分别为留存率、增加率、客单价建立相关机器学习模型,来判断哪些用户的留存率高,比如资料完善的用户相对于不完善的用户留存率要高很高,运营人员可以推广活动促使用户完善个人资料信息。
商户生命周期模型
商户生命周期模型分为孕育期、发展期、成熟期、维持期、瓶颈期
孕育期:有利用拓展平台的品类,提高用户感受服务的覆盖率。
发展期:用户流量开始增加,有利用用户引流,提升用户的体验。
成熟期:有充足的用户,有利于为平台带来收益。
维持期:已经有大量的活跃用户,平台可以借助这些活跃用户拓展其他品类商品的销售,提高整个平台的盈利能力。
瓶颈期:商户的发展遇到了瓶颈,这时候更多的是帮助平台去总结分析遇到的问题,借鉴经验,找到解决方案

第六章 RFM模型

产品的更迭和运营活动的持续开展,常常需要对整个一段周期内的策略运作做评估。根据最新的模型评估效果进行下一阶段新的策略制定。RFM模型在传统营销行业得到了广泛的应用实践,提供了一套通用的框架对用户的生命周期行为进行合理的解释。
Recency:表示用户最近一段消费实践距离现在有多远
Frequency:表示用户最近一段时间的消费次数
Monetary:表示用户最近一段时间的消费金额
上面所说的一段时间常常要结合具体的产品形态,有些低频的商业活动选取的时间需要相对长一些,比如一个季度甚至一年。根据三个维度的划分,我们可以得到一系列的方格。R1F1M1表示高质量价值用户。运营人员可以真对特定的人群开展最适配的运营方案,驱动整个运营活动和产品设计朝着公司当前时期重点关注的指标上来。
RFM模型在传统企业具有很强的针对性,当今的互联网时代上传统的RFM模型就显得有点格格不入。如果每个维度细分为5个区间,那一共就有125个方格,代表125个不同的人群,如果更进一步新分,用户群里会急剧膨胀。有如下集中方式可以解决此类问题

  1. 聚类分析,不再简单的按照维度进行区分,设计合适的距离函数来对用户群里进行聚类,把有限的资源投入到潜力更大、影响力更高的用户群里上来。
  2. 降维处理。可以按照一定的系数累加各个指标的影响力,最终综合得到一个低维,乃至一维的指标
    用户行为分析
    RFM的群里划分也给我们提供了一种新的视角来研究用户的行为轨迹和挖掘用户价值。
  3. 定格分析法。瞄定一个具体的象限,分析这个象限人群的属性情况,挖掘出近期哪些属性对用户的转化有巨大的影响
  4. 时间演化分析。选取一个具体的人群,按照时间的维度来跟踪这批用户的活动动向,找出影响这些用户行为差异化背后的用户标签。

相关文章

网友评论

    本文标题:《智能增长》---学习笔记

    本文链接:https://www.haomeiwen.com/subject/iqaqqftx.html