摘要
摘要核心
-
网络结构的非线性抽取特征是一种隐式特征表征
-
当前的ctr模型无法完全捕获特征的相互组合
-
作者提出一种网络结构Co-Action Network
-
Co-Action Network综合参数,存储,计算等的考量,能够进行在线部署
-
阿里巴巴线上效果ctr提升12% ,RPM提升8%
算法
DeepFM
在论文中作者将CAN与DeepFM进行横向对比
data:image/s3,"s3://crabby-images/8999b/8999b8f9cd98a74bda3ccb5bb02208dbd1f90052" alt=""
DIEN
data:image/s3,"s3://crabby-images/4f4d0/4f4d07d25440b00ef1ca0481f54cac00de0f7898" alt=""
与DeepFM相同,DIEN也是通过隐式向量表征进行操作,丢失了显式信息。
NCF
data:image/s3,"s3://crabby-images/6cfe3/6cfe3dc870bcfa98357b82efffb99d18884a651f" alt=""
同上。
算法模型
data:image/s3,"s3://crabby-images/54484/54484657e57e80b9664c0c3cd18c0b8d46fed2e5" alt=""
消融实验:自身的对比
CAN结构
data:image/s3,"s3://crabby-images/b1579/b1579bf138fe763854c0ee2d63d7a2e408d90513" alt=""
data:image/s3,"s3://crabby-images/36b29/36b294e4e1fcbcc04909f3dd2942696803b86e41" alt=""
左侧CAN单元:基于特征转化为对应的参数权重,参数权重进入对应的co-action网络抽取出对应的向量/参数,处理后传入DNN输入层。
右侧DIN单元:通过向量获取到每个特征对应的向量值,经过DIN层后抽取成一个向量输入到DNN输入层。
DNN输入层进行concat...softmax得到结果。
data:image/s3,"s3://crabby-images/6e343/6e343129061d56895fbce5478421f2daaa691526" alt=""
输入部分包含用户行为序列(用户点击历史、历史类别物品)、Target与用户属性信息(user age分桶得到离散值,对应hash化)、其他类特征(gender、 item price)。
data:image/s3,"s3://crabby-images/19c5c/19c5c910672b706649a1e36abb0289ee09ac58c3" alt=""
两个部分可以用同一个大参数服务器PS包含上述两个部分(key-value)的存储。
有多少个hashcode就有多少个key。
通过一个key取出一个很长的向量,前半部分是embedding,后半部分是weight,取出来后基于大小进行切分可分别放入向量层与权重层。
DIN部分
data:image/s3,"s3://crabby-images/e6d08/e6d08f998a8509ecdb3516e074df93d8650c22fd" alt=""
目标item向量与内部的序列向量进行加权
data:image/s3,"s3://crabby-images/e20d6/e20d6c0f179b5bdea6a727a280dcf69c951d3995" alt=""
基于序列化模型抽取加入目标item加权。
最终得到三部分输入到DNN中:目标item向量、用户点击序列向量、用户属性向量。
CAN部分
data:image/s3,"s3://crabby-images/072c1/072c1df5bc575118b6a0f3da722c0fcd3bc4fce0" alt=""
data:image/s3,"s3://crabby-images/d8f93/d8f934af3e3d6e8f9e5093edf629d3bbda41fa2c" alt=""
目标item向量与每个用户序列向量进行操作,对应输入到Co-Action网络单元中输出对应的权重向量。
目标item向量也会与用户其他特征进行操作输入到Co-Action网络单元中输出对应的权重向量。
算法细节
重点:Co-Action Unit结构
data:image/s3,"s3://crabby-images/444c6/444c6e5454f1838ae72c48183f9a4d6bacfda750" alt=""
注意点:
-
权重的长度:用户向量与目标item向量通常不一致
-
网络的大小:MLP结构
-
Pitem和Puser如何进行切分:目标item与用户特征
-
Reshape和MLP:切分后reshape会变成对应的权重与偏置,MLP网络如何计算。
data:image/s3,"s3://crabby-images/86798/8679865f39752310d7b5a344a8699e5ea0083554" alt=""
网络左侧输入Pitem通常向量是较长值。
[w1,w2.w3.w4.w5,w6]切分为三个值。
w1/w2/w3:weight, w6/w5/w4: bias
w11 = w7^1+ w8^2 + w9^3(w8与w9进行了高阶增强转化之后才进行求和)
L1/L2/L3:特征交叉,Fn激活函数
笛卡儿积转化为MLP中权重之间的乘积。
最终输出L3层。
data:image/s3,"s3://crabby-images/3586f/3586f77ab89f402f70d328e5fa4ae8a36482215f" alt=""
data:image/s3,"s3://crabby-images/21306/213068f7a4ea6cf3fa751d7111843c77460668ad" alt=""
Puser -> matrix [hashcode * D]
Pitem -> matrix [hashcode * T]
D < T(D与T为向量长度)
data:image/s3,"s3://crabby-images/0f69e/0f69e31dc4054692d0c244896432e52c7b638b00" alt=""
data:image/s3,"s3://crabby-images/4a0a9/4a0a9780dac32e3d8921fd5903d0682841e0f6d0" alt=""
实验设置和结果分析
data:image/s3,"s3://crabby-images/bb71a/bb71a4846587aee706c0163b41e345d7ada49b90" alt=""
data:image/s3,"s3://crabby-images/c1ea2/c1ea2d2e2af661996be601e68cf95d0313e7cd4d" alt=""
三阶、8层、tanh
data:image/s3,"s3://crabby-images/c45de/c45de90c46777a5e228351ed4bccef49b4263029" alt=""
data:image/s3,"s3://crabby-images/e9d7d/e9d7d2027d74a96ff5f5397dcf188b62171261c3" alt=""
问题
实验阶段的对比存在问题,CAN网络中本身就包含了DIEN,却还是与DIEN进行对比。
本该去掉DIEN来进行对比。
线上部署方案
如何尽可能的减少参数的量,从而达到减少计算量和存储量?
data:image/s3,"s3://crabby-images/b525b/b525be4da8dbf27d4bf4aa850609467fb93e5325" alt=""
总结
关键点
-
Co-Action单元
-
扩展性,序列和非序列都有效
-
在线部署方案
创新点
-
采用MLP实现权重之间的相乘
-
一种完成不一样的思路
代码实践
data:image/s3,"s3://crabby-images/f44cc/f44cc01a973e87d008a9a52e124922dcfbb3fcf3" alt=""
网友评论