Introduction

互补商品推荐（Complementary Product Recommendataion, CPR），i2i问题。输入的query是一个item，目标是召回尽可能多种类的互补商品（例如手机和手机壳，羽毛球拍和羽毛球）。

image.png

难点：

之前的方法（矩阵分解/协同过滤/神经网络等）大多数是基于相似度的，无法解决这个问题。专门做互补商品推荐的工作有两个，Sceptre(KDD'15), PMSC(WSDM'18)。这两个工作都存在两个问题：

分别使用co-view和co-purchase数据作为判断相似商品和互补商品的依据，但是实际上co-view和co-purchase是有重合的，不同的类目重合度不一样
只在一个大类内部做推荐（例如电子/母婴），但是事实上互补的商品经常会跨类目。

Contribution：

Preliminaries

Behaviour-based Product Graph (BPG)

这里有一个疑问，co-review和co-purchase这两种边为什么是有向的？这影响了接下来构造数据的时候怎么能构造出来非对称的label

问题定义：给定BPG，给定query item i和它对应的类目 wi，给定目标互补商品的类目数k，生成互补商品集合。目标是优化co-purchase概率

image.png

修改了对互补商品的生成规则：作者观察到，co-review和co-purchase整体上有20%的重合，而且不同类目程度不同。符合人的直觉，会同时购买两件T恤，但是不会同时购买两个电视。最终的互补商品集合如下，人工评估这种方式的准确率比只用cp高了30%

image.png

打破了之前的类目限制：互补商品会出现跨一级类目的情况，例如，网球拍在Sports大类下面，但是网球鞋在Shoes大类下面。33%的电子商品的co-purchase类目是 home improvement 和 office product
最终生成的数据集：2.4kw 商品，3.5w 类目，8kw 互补关系

P-Companion：E2E模型，分层多任务（预测类目&预测商品）联合训练。主要有三个部分

image.png

整体上是一个一跳的GAT，单独训练。这里训练出来的商品向量应该会用来初始化后面2&3中的商品向量。

商品初始表示：3层的网络

image.png
邻域选择：根据BPG图中边的情况，把item之间的关系分成两种：相似（substitute）和互补（complementary），这两种会分别构造邻域作为正例和负例。相似（左）和互补（右）的定义：

image.png

image.png

这里就是一个比较简单的分类任务的网络，每个类目有两个向量表达，一个用来做query向量，一个用来做context向量[图片上传失败...(image-6f62bc-1616648172252)] ，这里的目的是解决前面提到的互补关系非对称的问题。

image.png

商品向量和target互补类目向量点乘，把商品向量transfer到target互补类目空间，再计算和target item的距离。

image.png

训练数据：和Product2vec相反，相似数据作为负例，互补数据作为正例，正负例比例1:1

Joint Training：预测商品和预测类目的loss加权求和，通过α控制比重（实际取的是0.8）

inference：需要分2步进行，先预测type，然后取Top K，再预测商品

image.png

Baseline：
Co-purchase (CP): 直接把一起购买的商品作为CPR推荐的结果
Sceptre：根据商品的title/短描述/评论挖掘topic，然后通过LR预测substitute/complementary关系
PMSC：每个item分别有src embedding和tgt embedding两个表示，分别在query和candidate context中使用。通过神经网络分类。
JOIE：知识图谱表示学习的一个模型，会用到实体对应的type信息，这里把商品作为节点，把type改成是类目