CTR模型:
建模P(click|content)给定上下文,建模点击/购买/下载/使用的概率;是很多电商,社交,信息流涉及到盈利的非常关键的技术;
存在高维度的稀疏特征;
很多离散性质的特征:
行为发生时间,行为发生的渠道/页面位置等;
精巧的特征工程结合简单的模型(LR)——专家知识和特征工程能力;
弱化特征工程,通过模型的复杂性来自动发现建模;
CVR模型:
CVR即conversion rate(转化率),不是CTR;
给定广告点击相关的用户(user)、广告商品(ad)、检索词(query)、上下文内容(context)、商店(shop)等信息的条件下预测广告产生购买行为的概率(pCVR),形式化定义为:pCVR=P(conversion=1 | query, user, ad, context, shop)
给定广告点击相关的用户(user)、广告商品(ad)、检索词(query)、上下文内容(context)、商店(shop)等信息的条件下预测线索产生的转化概率;——“线索转商机”;
模型结果?132; 941;Map拆分;Item信息方法封装;Map里调用 并数据处理;Map里推荐结果的 作为入参 得到推荐结果;拆开U-I-V;定量推荐5个等;ArrayLength; 用户ID Session;
SparkSession&SparkContact的区别;RDD;SparkSession;参数设置;Master hadoop; SessionTg; Map数据处理好;ALS Model加载 mL mlib
Spark mllib中ALS算法的核心就是将稀疏评分矩阵分解为用户特征向量矩阵和产品特征向量矩阵的乘积,交替使用最小二乘法逐步计算用户/产品特征向量,使得差平方和最小。通过用户/产品特征向量的矩阵来预测某个用户对某个产品的评分。
ALS算法实现了对指定用户推荐商品列表,对指定特定商品推荐隐藏用户,在实际工程中,我们可能需要计算Item2Item的相关性,即用户和用户之间的相似度,商品和商品之间的相似度。如广告推荐过程中,需要扩展人群或者扩展APP应用列表。利用Spark ALS算法生成Item的特征向量,利用局部敏感哈希算法(LSH)计算向量的相似度。
LSH算法的优势是,可以在线性时间内获取相似的topK向量,类似于搜索引擎和NLP算法现;
局部敏感哈希的基本思想类似于一种空间域转换思想,LSH算法基于一个假设,如果两个向量在原有的数据空间是相似的,那么分别经过哈希函数转换以后的它们也具有很高的相似度;相反,如果它们本身是不相似的,那么经过转换后它们应仍不具有相似性。
曼哈顿距离:
两个向量之间各个维度的差的绝对值之和
闵可夫斯基距离,也叫Lp范数。曼哈顿距离也可以叫做L1范数,欧式距离也就是L2范数。
网友评论