reference:
概念/背景介绍类:
- [个人blog]一文读懂Look-alike相似人群扩展 {中}
- https://zhuanlan.zhihu.com/p/38098448 [知乎] 独家解析Lookalike那些事儿 {中}
- https://www.jianshu.com/p/3c2795ae5322 [简书] 计算广告中的lookalike是如何实现的?{中}
理论类:
- https://blog.csdn.net/broadview2006/article/details/80131181
实战类:
- https://blog.csdn.net/bryan__/article/details/79623239
- https://github.com/YouChouNoBB/2018-tencent-ad-competition-baseline
2018腾讯广告算法大赛baseline model
- https://zhuanlan.zhihu.com/p/38034501 2018腾讯广告算法大赛总结/Rank11,lightGBM+xgboost+FFM
- https://github.com/DiligentPanda/Tencent_Ads_Algo_2018 2018腾讯广告算法大赛rank3,神经网络
- https://zhuanlan.zhihu.com/p/40479648 2018腾讯算法大赛Top10-特征工程
- https://zhuanlan.zhihu.com/p/116907937 腾讯广告比赛汇总篇
- https://blog.csdn.net/zouxy09/article/details/49105265 标签传播算法(LP)及Python实现(半监督算法)
基本定义
Lookalike,即相似人群扩展,是基于种子用户,通过一定的算法评估模型,找到更多拥有潜在关联性的相似人群的技术。值得注意是,lookalike不是某一种特定的算法,而是一类方法的统称,这类方法综合运用多种技术,比如协同过滤、node2vec等,最终达到用户拓展目的。
主要方法
对于特征和模型算法,不同的广告技术公司各有差异,特征取决于其DMP有哪些数据,主要方式有以下三种:
1. 利用用户画像进行人群扩散:给种子用户打标签,利用相同标签找到目标人群。(实际中很少这样做,一方面是广告主很难收集到比较全面的用户数据,无法做用户画像分析,各家的数据差异大很难把用户画像模型算法产品化;一方面基于标签的扩展人群,不会计算每个用户和种子用户群的相似度,精度不高)
2. 利用分类模型进行人群扩散:种子用户为正样本,候选对象为负样本(或者是平台积累历史的一些相似的广告的非点击非下载用户作为负样本),变成一个二分类模型,然后用训练好的模型对所有候选对象进行筛选。
3. 利用社交网络进行人群扩散:利用种子用户的好友关系,将其标签传给社区中的好友,从而实现人群扩散。基于社交关系数据的两个核心价值:社交同质性和社交影响力。利用基于网络节点的算法node2vec可以挖掘用户的相似度,node2vec对于网络中的特征学习是一种高效的可扩展算法。
lookalike未来发展空间
1. Lookalike当前的解决方案都是以“人”到“人”的方式,未来可能结合“物”的特征也是一种方式。比如一条新的广告到来,可以根据广告的图片、描述等自动扩展一批相似或喜好人群;
2. 虽然lookalike扩展效果总体上很好,但机器模型难保证没有失误的时候。因此在商业应用的时候就需要一个逐步探索扩展的过程,而不是一次性扩展大量人群。在广告投放上这种需求更加迫切,如果扩展人群数过多必然导致精准性差,反之则会影响广告的曝光展示量。如果能够结合扩展的效果动态的调整扩展人群数,则提供了一个很好的扩展节奏;
3. Lookalike扩展人群的可解释性:虽然可以通过一系列的大数据分析和机器学习技术拓展了一批用户,但是拓展的途径、人群的行为特征等都需要一个直观的解释。比如扩展的人群在哪些特征或行为上匹配种子用户,而未被拓展的人群,又是怎么样的? 但目前绝大多数平台都无法回答这一问题;
4. 降低种子用户的敏感性:种子用户是拓展的前提和基础,种子用户的质量往往也是lookalike效果好坏的关键。但广告主很难提供数据量足够大且足够宽泛的种子包。这个时候就需要考虑如何在少量种子包且种子不一定能覆盖全局特征的情况下,进行有效的数据预处理和模型学习。
主要算法
Q:怎么评估lookalike算法结果的好坏?
1. [半监督学习]标签传播算法 — PLA
陈文辉,基于图的半监督学习算法研究 http://www.docin.com/p-483916669.html
标签传播算法 http://blog.csdn.net/zouxy09/article/details/49105265
半监督学习有三个假设条件:
1)Smoothness平滑假设:相似的数据具有相同的label。
2)Cluster聚类假设:处于同一个聚类下的数据具有相同label。
3)Manifold流形假设:处于同一流形结构下的数据具有相同label。
这就意味着当数据量小,或者关键feature选择偏离度较高时,模型的效能会大幅度下降
网友评论