BST: Behavior Sequence Transfor

作者: 小新_XX | 来源:发表于2019-12-24 17:25 被阅读0次

BST: Behavior Sequence Transfor
推荐系统论文阅读（十一)-Transformer在阿里BST论文
推荐系统 - BST模型
二叉搜索树（BST）
DLL ro BST BST to DLL
iOS动画总结
Psychology Glossary 134
5 分钟入门 Google 最强NLP模型：BERT
iOS中的transform属性
BERT:Pre-training of Deep Bidire

用户历史行为中包含了丰富的信息，是刻画用户心智的重点特征。在推荐广告领域，如何挖掘用户行为序列中的有效信息是CTR预估等任务的重点。笔者在上一篇文章中介绍了DIN(Deep Interest Network)，其抓住了用户行为序列与目标广告/商品之间的关系。在这篇文章中将介绍阿里团队的另外一项重要的工作：BST(Behavior Sequence Transformer) ，将NLP中的transformer模型运用到了CTR预估中，更好地挖掘用户行为序列内部的时序关系。

文章地址：Behavior Sequence Transformer for E-commerce Recommendation in Alibaba
Transformer论文地址：Attention Is All You Need，想对transformer有详细了解的同学们可以参考

transformer的tensorflow代码可以参考tf官方的github：地址
我自己试了一下，简洁直观，容易实现。

1. BST网络简介

BST的网络结构如下图所示：

图1 BST网络结构
1.1 核心思想
WDL 和 DIN没有考虑到用户序列的时序性，即用户序列中不同商品间的关系。本论文使用了transformer的结构，来捕捉这种关系。

1.2 输入特征
网络的输入特征有两部分：用户行为序列(User Behavior Sequence)和其他特征(user, item, context, cross等)。其中用户序列中的每一个item有两部分组成：sequence item feature 和positional feature，如图1所示。这里的用户序列也包含了target item及其position，见图1的右下角。

sequence item feature：使用item_id和category_id
positional feature: 用户序列中商品的位置信息，目的是为用户序列引入时序信息。商品 $v_i$ 的位置特征计算如下：
$pos(v_i) = t(v_t)-t(v_i) \tag1$
即商品的点击时间与当前target item $v_t$ 的推荐时间之间的gap。这里加入的position feature相当于<<attention is all you need>>里的postitional encoding，只是本论文中没有使用sin/cos的编码方法，而是更直接地将postional feature与item feature进行了concat.

1.3 transformer layer

transformer layer主要实现了<<attention is all you need>>里的multi-head self attention + Point-wised FFN 结构（即encoder结构）
multi-head self attention：
${\rm Attention}(\boldsymbol {Q, K, V}) = {\rm softmax}(\frac{\boldsymbol { QK}^{T}}{\sqrt d})\boldsymbol V \tag2$
其中 $\boldsymbol {Q, K, V}$ 即Query， Key 和Value，是同一个item与不同的权值矩阵 $\boldsymbol {W^Q, W^k, W^V}$ 相乘得到，权值矩阵 $\boldsymbol {W^Q, W^k, W^V}$ 为可学习参数； $d$ 为embedding size。此处的attention抽象为对Value中的每个item进行加权，而加权所用到的weight就是式（3）所计算得到的，即用Query和Key来决定注意力应该放到value中的哪个item上。Query之所以叫query(查询)，是因为每次都用一个embedding vector去查询其与其他的embedding vector的match程度。一共要做n轮这种操作，n为1个batch中的序列个数。

multi-head：将Q, K 和V在embedding size维度上投影h次，分别进行学习，最后concat起来作为attention的最终输出。使用multi head是为了使模型能够自适应地学到不同子空间下的序列信息。这里与CNN的feature map思想有些类似，使用相同形状的多个feature map，以期待模型能够自动学习到不同子空间下的特征。
$\boldsymbol S = MH(\boldsymbol E) = Concat(head_1, head_2, ..., head_h)\boldsymbol W^H \tag3$
注：这里论文的公式写法有些混乱，我的理解 $head_1, ..., head_h$ 就是把 $Q, K, V$ 分成了h等份(源码中使用的是tf.split()函数)，分别做公式(2)中的变换，再concat起来。详细分析见后面的图解。
Point-Wised Feed-Forward Networks(FFN)
$F = FFN(\boldsymbol S)\tag4$
FFN中应用了normalization和residual blocks。self attention和FFN中都应用了dropout和LeakyReLU来避免过拟合。
叠加多层self attention和FFN模块：
$\boldsymbol S^b = SA(F^{(b-1)})\tag5$
$\boldsymbol F^b = FFN(\boldsymbol S^b), \forall i \in 1, 2, ..., n.\tag6$
叠加多层模块是为了模型能够更好地学习序列间的复杂关系。但论文的实验中证明 $b=1$ 时的效果最好。

2. self attention过程详解

图2 self attention

图3 multi-head self attention

在图2中， $seq$ 首先经过embedding得到向量 $\boldsymbol E \in \mathbb{R}^{n\rm x d}$ , 其中 $n=4$ 为序列长度， $d=6$ 为embedding size. 然后 $\boldsymbol E$ 与3个相同形状的权重矩阵 $\boldsymbol W_Q, \boldsymbol W_K, \boldsymbol W_V$ 点乘，将自身映射为3个不同的矩阵 $\boldsymbol Q, \boldsymbol K, \boldsymbol V$ 。接下来这三个矩阵会完成self attention的基本操作，即式(2)。 $\boldsymbol Q$ 与 $\boldsymbol K$ 得到的attention score $\boldsymbol W$ 作为权重，与 $\boldsymbol V$ 点乘，作为self attention的输出。

图3在图2的基础上加入了multi head 操作，即将 $\boldsymbol Q, \boldsymbol K, \boldsymbol V$ 在embedding size $d$ 的维度拆分为 $h$ 个矩阵(图中h=3)，分别进行self attention 操作，得到的结果再concat起来作为最终的输出。

参考文献：
[1] multi-head attention
[2] 推荐系统遇上深度学习(四十八)-BST:将Transformer用于淘宝电商推荐
[3] 论文笔记：Attention is all you need

BST: Behavior Sequence Transfor
用户历史行为中包含了丰富的信息，是刻画用户心智的重点特征。在推荐广告领域，如何挖掘用户行为序列中的有效信息是CTR...
推荐系统论文阅读（十一)-Transformer在阿里BST论文
论文原文: 论文:《Behavior Sequence Transformer for E-commerce Re...
推荐系统 - BST模型
1. 简介 Behavior Sequence Transformer由阿里巴巴淘宝团队19年发表在KDD2019...
二叉搜索树（BST）
BST简介查询BST 插入和删除 #1. BST简介 BST(Binary Search Tree)，二叉搜索树...
DLL ro BST BST to DLL
已写bst to dll dll to bst
iOS动画总结
View AnimationsAnimatable propertiesframe bounds transfor...
Psychology Glossary 134
Prosocial Behavior: Behavior that is carried out with the...
5 分钟入门 Google 最强NLP模型：BERT
BERT (Bidirectional Encoder Representations from Transfor...
iOS中的transform属性
button.transform=CGAffineTransformRotate(button.transfor...
BERT:Pre-training of Deep Bidire
BERT: Bidirectional Encoder Representations from Transfor...