推荐系统遇上深度学习(十三)--linUCB方法浅析及实现

作者: 天善智能 | 来源:发表于2018-08-13 14:05 被阅读9次

推荐系统遇上深度学习(十三)--linUCB方法浅析及实现
推荐系统遇上深度学习(十三)--linUCB方法浅析及实现
阅读记录-推荐系统
推荐系统遇上深度学习(三)--DeepFM模型理论和实践转载
推荐系统遇上深度学习(四)--多值离散特征的embedding解
DeepFM算法
推荐系统遇上深度学习(三)--DeepFM模型理论和实践
推荐系统遇上深度学习(二)--FFM模型理论和实践
推荐系统遇上深度学习(九)--评价指标AUC原理及实践
推荐系统遇上深度学习(五)--Deep&Cross Ne

欢迎关注天善智能，我们是专注于商业智能BI，人工智能AI，大数据分析与挖掘领域的垂直社区，学习，问答、求职一站式搞定！

对商业智能BI、大数据分析挖掘、机器学习，python，R等数据领域感兴趣的同学加微信：tsaiedu，并注明消息来源，邀请你进入数据爱好者交流群，数据爱好者们都在这儿。

本文来自天善智能社区专栏作者[文文](https://ask.hellobi.com/people/%E7%9F%B3%E6%99%93%E6%96%87)

配套学习视频教程： [手把手教你用Python 实践深度学习](https://edu.hellobi.com/course/278)

上一篇中介绍了Bandit算法，并介绍了几种简单的实现，如 Epsilon-Greedy算法，Thompson sampling算法和UCB算法。

但是传统的实现方法存在很大的缺陷，主要是缺乏用附加信息刻画决策过程的机制。今天的文章就来介绍一种结合上下文信息的Bandit方法，LinUCB，它是Contextual bandits算法框架的一种。

本文的原文是雅虎的新闻推荐算法：https://arxiv.org/pdf/1003.0146.pdf。里面公式是真的挺多的，而且涉及到了两种linUCB算法，本文只介绍第一种方法。感兴趣的同学可以阅读原文。

LinUCB浅析

这里只简单介绍一下LinUCB算法的流程，真的是浅析，浅析！

在推荐系统中，通常把待推荐的商品作为MAB问题的arm。UCB是context-free类的算法，没有充分利用推荐场景的上下文信息，为所有用户的选择展现商品的策略都是相同的，忽略了用户作为一个个活生生的个性本身的兴趣点、偏好、购买力等因素，因而，同一个商品在不同的用户、不同的情景下接受程度是不同的。故在实际的推荐系统中，context-free的MAB算法基本都不会被采用。

与context-free MAB算法对应的是Contextual Bandit算法，顾名思义，这类算法在实现E&E时考虑了上下文信息，因而更加适合实际的个性化推荐场景。

在LinUCB中，每一个arm维护一组参数，用户和每一个arm的组合可以形成一个上下文特征（上下文特征的特征维度为d），那么对于一个用户来说，在每个arm上所能够获得的期望收益如下：

对于一个老虎机来说，假设手机到了m次反馈，特征向量可以写作Da(维度为md)，假设我们收到的反馈为Ca(维度为m1)，那么通过求解下面的loss，我们可以得到当前每个老虎机的参数的最优解：

这其实就是岭回归嘛，我们很容易得到最优解为：

既然是UCB方法的扩展，我们除了得到期望值外，我们还需要一个置信上界，但是，我们没法继续用Chernoff-Hoeffding Bound的定理来量化这个上界，幸运的是，这个上界已经被人找到了：

因此，我们推荐的item就能够确定了：

可以看到，我们在计算参数及最后推荐结果的时候，用到了以下几部分的信息：上下文特征x，用户的反馈c。而这些信息都是可以每次都存储下来的，因此在收集到了一定的信息之后，参数都可以动态更新，因此我们说LinUCB是一种在线学习方法。

什么是在线学习？个人简单的理解就是模型的训练和更新是在线进行的，能够实时的根据在线上的反馈更新模型的参数。

好了，我们来看一下linUCB算法的流程吧：

上面的ba可以理解为特征向量x和反馈r的乘积。

是否觉得一头雾水，不用着急，我们通过代码来一步步解析上面的流程。

2、linUCB代码实战

本文的代码地址为：https://github.com/princewen/tensorflow_practice/blob/master/recommendation/Basic-Bandit-Demo/Basic-LinUCB.py

设定超参数和矩阵

首先我们设定一些超参数，比如α，正反馈和负反馈的奖励程度r1，r0，上下文特征的长度d

self.alpha =0.25self.r1 = 0.6self.r0 = -16self.d=6 #dimensionofuserfeatures

接下来，我们设定我们的几个矩阵，比如A和A的逆矩阵，b(x和r的乘积），以及参数矩阵：

self.Aa = {}# Aa : collection of matrix to compute disjoint part for each article a, d*d

self.AaI = {}# AaI : store the inverse of all Aa matrix

self.ba = {}# ba : collection of vectors to compute disjoin part, d*1

self.theta = {}

初始化矩阵

初始化矩阵对应上面的4-7步，A设置为单位矩阵，b设置为0矩阵，参数也设置为0矩阵，注意的是，每个arm都有这么一套矩阵：

def set_articles(self,art):

forkeyinart:

self.Aa[key] = np.identity(self.d)# 创建单位矩阵

self.ba[key] = np.zeros((self.d,1))

self.AaI[key] = np.identity(self.d)

self.theta[key] = np.zeros((self.d,1))

计算推荐结果

计算推荐结果对应于上面的8-11步，我们直接根据公式计算当前的最优参数和置信上界，并选择最大的arm作为推荐结果。代码中有个小trick，及对所有的arm来说，共同使用一个特征，而不是每一个arm单独使用不同的特征：

def recommend(self,timestamp,user_features,articles):

xaT = np.array([user_features])# d * 1

xa = np.transpose(xaT)

AaI_tmp = np.array([self.AaI[article]forarticleinarticles])

theta_tmp = np.array([self.theta[article]forarticleinarticles])

art_max = articles[np.argmax(np.dot(xaT,theta_tmp) +self.alpha * np.sqrt(np.dot(np.dot(xaT,AaI_tmp),xa)))]

self.x = xa

self.xT = xaT

self.a_max = art_max

returnself.a_max

更新矩阵信息

这对应于上面的12-13步，根据选择的最优arm，以及得到的用户反馈，我们更新A和b矩阵：

defupdate(self,reward):

if reward == -1:

pass

elif reward ==

1 or reward == 0:

if reward == 1:

r =

self.r1

else:

r =

self.r0

self.Aa[self.a_max] += np.dot(self.x,self.xT)

self.ba[self.a_max] += r * self.x

self.AaI[self.a_max] = np.linalg.inv(self.Aa[self.a_max])

self.theta[self.a_max] = np.dot(self.AaI[self.a_max],self.ba[self.a_max])

else:#error