用户增长团队主要是与运营和产品相协作,实现对各个业务领域对用户群特征的深入理解和洞察,从而在更大的新数据(可能是其他相关或者类似业务上的数据)上挖掘出潜在的本业务的新用户。
(0)数据准备
搭建数据平台,包含用户基本特征(性别,年龄,收入,位置,人生阶段等);利用用户评论等文本信息挖掘用户倾向;并利用分享,转发等挖掘用户之间关系信息。
(1)生成种子用户。
首先,运营根据业务经验,将业务需求转化为标签,然后根据标签划分出已有的用户作为种子用户。这些种子用户是在特殊场景下收集到的,对商品,服务需求和兴趣一致。数量比较少。根据已有标签体系,为所有用户打上标签。没有标签的用户通过GBDT生成。
(2)生成扩展用户。
首先对用户文本信息进行向量化(doc2vec),然后进行聚类,提取聚类中心向量。根据用户文本所在聚类得到用户价值倾向对向量表达。(具体实现不明,推测为用户性格,是否关注产品体验,等进行文本信息特征提取,随后进行聚类);
其次,使用图模型对用户关系数据进行转化,利用node2vec得到用户关系网络图向量化表示。(这个用户关系网络图对作用和表示不明);
最后和用户基本特征进行拼接,得到用户组合特征。多特征向量集(User Vector Set,UVS)。这么做是因为仅仅使用用户的属性特征和标签特征进行人群扩散过于粗犷,人与人的兴趣差异不光光是兴趣标签决定的,往往和时间、环境、友人等其他的因素息息相关。各个维度当特征做好归一化。(特征更加细粒度化,同时是否做了主成分分析不明)。
多特征向量聚类并存库(存聚类中心和对应ID)。(具体聚类算法和实现细节不明,用户关系数据聚类有点不明作用)生成扩展用户群特征。扩展用户应该是淘系所有产品线用户。
(3)使用方法,当运营在平台上传种子用户ID后,根据种子用户ID判断其是否在UVS中,将存在的也通过以上方法和数据生成对应聚类中心。通过相似性度量方法找到与种子人群类簇中心距离最小的 topN 个扩展用户类簇,其中高纬度数据使用余弦相似度效果较好。(种子用户和扩展用户各生成多少个聚类中心不明)。将这N各用户类簇的用户ID输出。
(5)分群评价指标。覆盖度和相似度。
覆盖度:对种子人群进行随机采样,切分为 A、B 两个人群, A 人群通过相似人群挖掘算法得到扩散后的人群 C ,覆盖度 =B∩C/B ,覆盖度表示扩人群中人群 B 的占比,考验的是算法通过人群 A 对人群 B 的“恢复”能力,具体实验中通过将种子人群进行 5 倍扩散后根据相似人群的覆盖度是否有提升来对模型进行迭代优化。人群覆盖度指标并不能完全表征相似人群与种子人群的的近似程度,需要配合人群相似度一起评估。
相似度:人群相似度用来控制人群规模。首先分别计算扩散人群到种子人群聚类中心的 cosine 距离;其次进行归一化。人群相似度基于扩散人群与种子人群间的距离计算,能够表征扩散人群与种子人群的相似程度。
(6)进一步扩展
特征表达优化;根据业务的人群划分丰富;特征丰富;效果反馈和迭代。
网友评论