模型构造
一个DCN模型从嵌入和堆积层开始,接着是一个交叉网络和一个与之平行的深度网络,最后是组合层,结合了两个网络的输出。模型如图:
嵌入和堆积层
考虑离散和连续特征的输入数据,在网络规模的推荐系统中,如CTR预测,输入主要是categories特征,比如"country=China",这些特征通常通过独热编码,将其编码为独热向量,比如"[0,0,1,0]", 然而,这样往往会出现高维特征空间。为了减少维数,我们利用嵌入,将这些离散特征转换成实数值的稠密向量(通常称为嵌入向量)。
然后,将嵌入向量和连续特征堆积起来,形成一个向量。
将 作为Cross network和 Deep network的输入。
因为在输入层面,只有embedding和continuous,特征交叉在交叉网络中实现。
Cross Network
交叉网络的核心是以有效的方式应用显示特征交叉。交叉网络由交叉层组成,第 层的cross layer为:
一个交叉层如下图:
由上图可以看出,交叉网络的的总参数量非常少,仅仅为, 每一层的维度也都保持一致,最后的output依然与input维度相等。另一方面,特征交叉的概念体现在每一层,当前层的输出的交叉特征都要与第一层输入的原始特征做一次两两交叉,至于在最后又把 加上,应该是借鉴了ResNet的思想,模型最终拟合的是 这一项的残差。从cross layer的表示公式中也能看出,实际的特征交叉部分,拟合就是残差。
Deep Network
深度网络就是一个全连接的前馈神经网络,每个深度层都有如下公式:
假设所有的层都是一样的大小,表示层的深度,表示层的尺寸,在深度网络中,参数量为:
可以看出整个网络结构的参数量主要还是在深度网络一侧。
Combination Layer
组合层将两个并行网络的输出连接起来,经过一层全连接层得到输出:
采用对数损失函数,形式如下:
总结
DCN能有效地找出有限度的有效特征的相互作用,学会高度非线性的相互作用,不需要人工特征或遍历搜索,并具有较低的计算成本。实验结果表明,DCN在对数损失函数上与DNN相比,少了近一个量级的参数量。
网友评论