用户画像（一）｜计划制定

作者: 小怪聊职场 | 来源:发表于2018-01-07 20:33 被阅读404次

最近准备研究下用户画像，先制定一个计划，在简书上记录下，希望得到同道中人一起讨论。

一、目的

用户画像的目的

用户画像的目的是通过分析用户行为，最终为每个用户打上标签，以及该标签的权重。
如：

用户A的职业，标签为“程序员”，权重为0.8；标签为“用户运营”，权重为0.3。
用户A的性别，“男”的权重为0.7；“女”的权重为0.3。
用户A的年龄，20岁以下的权重为0.6；20-30岁的权重为0.3；30岁以上的权重为0.9。

标签：表征了内容，用户属于或者是对该内容有兴趣、偏好、需求等等。
权重：表征了指数，用户的兴趣、偏好指数，也可能表征用户的需求度，可以简单的理解为可信度，概率。

二、数据源分析

构建用户画像是为了还原用户信息，因此数据来源于：所有用户相关的数据。
对于用户相关数据的分类，引入一种重要的分类思想：封闭性的分类方式。
如：

世界上分为两种人，互联网行业和非互联网行业；
用户分四种，核心用户、储备用户、重点用户和可挽回用户；
用户地域分四种类型，一线城市、二线城市、三线城市和四线城市…

所有的子分类将构成了类目空间的全部集合。
这样的分类方式，有助于后续不断枚举并迭代补充遗漏的信息维度。不必担心架构上对每一层分类没有考虑完整，造成维度遗漏留下扩展性隐患。另外，不同的分类方式根据应用场景，业务需求的不同，按需划分即可。

三、数据建模

如何根据用户行为，构建模型产出标签、权重。
一个事件模型包括：时间、地点、人物三个要素。每一次用户行为本质上是一次随机事件，可以详细描述为：什么用户，在什么时间，什么地点，对什么对象，做了什么事。

3.1、什么用户

关键在于对用户的标识，用户标识的目的是为了区分用户、单点定位。
以下列举了互联网主要的用户标识方法，获取方式由易到难。视企业的用户粘性，可以获取的标识信息有所差异。

标识用户的方式

3.2、在什么时间

时间包括两个重要信息，时间戳+时间长度。时间戳，为了标识用户行为的时间点，如，1395121950（精度到秒）。时间长度，为了标识用户在某一页面的停留时间。

3.3、什么地点

用户接触点，Touch Point。对于每个用户接触点。潜在包含了两层信息：网址 + 内容。
网址：每个url链接（页面/屏幕），即定位了一个互联网页面地址，或者某个产品的特定页面。可以是PC上某电商网站的页面url，也可以是手机APP上的内容。如，一面的启动页，一面的主题内容页。
内容：每个url链接（页面/屏幕）中的内容。可以是某个内容的相关信息：内容平台、内容类别、标题、描述等等。
对于每个互联网接触点，其中网址决定了权重；内容决定了标签。
注：接触点可以是网址，也可以是某个APP的特定功能界面。如，同样一瓶矿泉水，超市卖1元，火车上卖3元，景区卖5元。商品的售卖价值，不在于成本，更在于售卖地点。标签均是矿泉水，但接触点的不同体现出了权重差异。这里的权重可以理解为用户对于矿泉水的需求程度不同。即，愿意支付的价值不同。

3.4、对什么对象

其实上面的用户接触点已经说明了一种对象——内容。我这边之所以还单独把对象拿出来作为一项，是因为这个对象有可能是我们自己造出来的，比如简书中某个专题中的内容肯定是一个对象，但是如果一个专题里面没有内容，那么它也是一个对象，我们为这个对象设定的标签也可能是不一样的，如果某个专题只有2个人，一男一女，那么我们可能就会为这个我们造出来的对象打上一个“情侣”的标签，如果是只有男人，我们可能就会打上“同志”的标签。

3.5、做了什么事

用户行为类型，对于一个内容为主的APP来说有如下典型行为：浏览、点赞、评论、收藏等等。
不同的行为类型，对于接触点的内容产生的标签信息，具有不同的权重。如，收藏权重计为5，浏览计为1。

3.6、总结

综合上述分析，用户画像的数据模型，可以概括为下面的公式：
用户标识 + 时间 + 行为类型 + 接触点（网址+内容）
某用户因为在什么时间、某个地点、对某个对象，做了什么事。所以会打上XX标签。
用户标签的权重可能随时间的增加而衰减，因此定义时间为衰减因子r，行为类型、网址决定了权重，内容决定了标签，进一步转换为公式：
标签权重=衰减因子×行为权重×位置权重
当然，很多时候标签本身也是有权重的。
如：用户A，昨天在发现频道浏览“2018年必看惊悚恐怖片之一：XXX电影”的主题内容。
我们为这个内容打的标签为：恐怖 0.6，电影 0.8
时间：因为是昨天的行为，假设衰减因子为：r=0.95
行为类型：浏览行为记为权重1
地点：在发现频道为 0.6（相比在我的－我创建的主题中的0.9）
则用户偏好标签是：电影，权重是0.95*0.6 * 1=0.57，即，用户Ａ：恐怖 0.57、电影 0.57。最后再乘以标签自己的权重。

上述模型权重值的选取只是举例参考，具体的权重值需要根据业务需求二次建模，这里强调的是如何从整体思考，去构建用户画像模型，进而能够逐步细化模型。

四、计划

根据上面的介绍，我们知道如果要为一个平台做用户画像，那么首先要做的就是根据自己的业务需求进行建模。

4.1、为数据建模

确定每个位置和行为的权重，以及造出的对象的权重。
对象（标签）、位置（权重）、行为（权重）、时间衰减值等

4.2、为文章内容打上标签

这里需要的就是一些提取文章内容的标签算法，同时需要考虑内容中标签的自己的权重值。

4.3、根据内容与对象的标签和数据建模中定义的权重跑出用户画像

实践是检验真理的唯一标准
要想知道自己的数据建模是否合理，为文章内容打标签的算法的正确性是怎么样的。
实践吧～

用户画像我将作为一个系列来记录，欢迎前辈们多多指导

用户画像（一）｜计划制定

一、目的

二、数据源分析

三、数据建模

3.1、什么用户

3.2、在什么时间

3.3、什么地点

3.4、对什么对象

3.5、做了什么事

3.6、总结

四、计划

4.1、为数据建模

4.2、为文章内容打上标签

4.3、根据内容与对象的标签和数据建模中定义的权重跑出用户画像

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

简摘17

大数据

程序员

互联网科技

呆鸟的Python数据分析

用户画像