推荐系统遇上深度学习(三十五)--强化学习在京东推荐中的探索(二

1、背景

现有的大多数推荐系统，如协同过滤、基于内容的方法，推荐过程大都是静态的，忽略了用户偏好的动态变化性。同时，大多数推荐系统的目标是最大化即时收益，如CVR、CTR等，忽略了对长期收益的考虑。

强化学习方法可以应对上述两个问题，强化学习将推荐问题视为序列决策问题，同时其目标是最大化长期受益。那么，京东是如何将强化学习应用到推荐系统中的呢？

2、问题陈述

对于一个强化学习问题来说，其主要包含五个主要因素：

状态空间S：状态空间中的状态定义为用户之前的浏览历史，包括点击／购买过的和略过的，二者分开进行处理。同时，物品是按照先后顺序进行排序的。
动作空间A：这里，我们假设一次只给用户推荐一个物品，那么推荐的物品即动作。
即时奖励R：在给用户推荐一个物品后，用户可以选择忽略、点击甚至购买该物品，根据用户的行为将给出不同的奖励。
状态转移概率P：状态的转移主要根据推荐的物品和用户的反馈来决定的。
折扣因子r：对未来收益打一定的折扣。

下图展示了强化学习用于推荐的过程：

3、基本模型框架

由于动作空间和状态空间巨大，很难直接使用Q-table来解决问题，因此这里使用Deep Q Network(DQN)来作为基准的模型。

在基本的框架里，当前状态s和状态之间的转移关系定义如下：
当前状态s: s={i₁,i₂,...,i_N}，用户之前点击或购买过的N个物品，同时按照时间先后进行排序
s转移到s’：假设当前的推荐物品a，用户若点击或购买，则s'={i₂,i₃,...,i_N,a}，若用户略过，则s'=s 。

有了上述定义，基本的模型框架如下：

我们每次将state以及待推荐的物品作为输入，转换为embedding后经过多层神经网络得到Q(s,a)。

当然，对于DQN来说，上面的网络被称为eval-net，我们通常还有一个target-net，用于计算Q的实际值，在已知即时奖励r的情况下，实际值计算如下：

这样，DQN的损失函数定义为平方损失，下式中y是Q的实际值：

对于基本模型来说，一个明显的缺点就是，当推荐的物品被用户忽略时，状态是不会发生变化的。因此对于用户忽略过的物品，也应该被考虑在状态中。那么具体该怎么做？在下一节中我们将进行讨论。

4、考虑负反馈以及偏序关系的强化学习推荐框架

在考虑负反馈的情况下，当前状态s和状态之间的转移关系定义如下：
当前状态s: 当前状态s包含两部分s=(s₊,s_-)，其中s₊={i₁,i₂,...,i_N}，表示用户之前点击或购买过的N个物品，s_-={j₁,j₂,...,j_N}，表示用户之前略过的N个物品。同时物品按照时间先后进行排序。
s转移到s’：假设当前的推荐物品a，用户若点击或购买，则s'₊={i₂,i₃,...,i_N,a}，若用户略过，则s'_-={j₂,j₃,...,j_N,a} 。那么，s' = (s'₊,s'_-)。