续用户行为关联与推荐:多目标与多任务学习01
多门混合专家模型(MMoE)
多门混合专家模型(Multi-gate Mixture-of-Experts,MMoE)引入了特殊的混合专家模型(Mixture of Experts,MoE)来解决多任务相关性不能保证的问题,且算力增加可控。

MoE 模型是可以根据数据进行分离训练多个模型的新型神经网络范式,每个单一模型被称为专家,而门控模块用于选择使用哪个专家(无需添加更多新的参数),模型输出是门控模型的权重与专家模型输出的综合结果。
与前述 MLP、CNN、RNN 等范式一样,MoE 是神经网络的基本范式,它可以通过并行和串行的堆叠组成新的神经网络。

Shared-Bottom model:共享底层模型 One-gate MoE model:单门混合专家模块 | Multi-gate MoE model:多门混合专家模块 Vector:向量 | Scalar:标量
a 为由 MLP 组成的经典的多任务学习 Shared-Bottom 网络结构,它将全部样本输入一个大型 MLP 模型中,然后将 MLP 的结果分别输出多个不同拟合目标的 MLP “塔”中,并将多个目标放在一起进行统一优化。
b 为在 a 基础上的优化,它在经典 Shared-Bottom 网络结构的基础上添加了门控制结构。具体操作:首先,使用一组专家网络替换原有的 Shared-Bottom 部分(专家网络由 MLP 组成),再加上一个门控制网络,这与 MoE 范式就很接近了。
c 为在 b 基础上的优化,b 是使用单门的网络结构,在这个基础上增加了多个门控网络。
就这样,一个 MMoE 模型就构成了。MMoE 模型为每一个任务配备了一个单独的门控制结构,并在不同的任务上自动分配不同的权重,用以自动捕获各个任务之间的相关性。
以上就是 Shared-Bottom 网络结构到 MMoE 模型整个演化过程。
共享隐向量表征对于各个任务的学习会有两种影响:
一种是共享性,通过将共享隐向量表征作为模型输入,各模型能够获取领域相关信息;
另一种是约束性,共享隐向量表征是由各个任务同时反馈训练出来的结果,使得单个任务的偏差样本得到过滤和抑制,从而降低了拟合风险,大大提升了泛化性。
网友评论