1.BERT整体模型架构 基础架构 - TRM的Encoder部分image.pngBERT的基础架构是trans...[作者空间]
本部分介绍Attention机制的各种变体。包括但不限于: 「基于强化学习的注意力机制」:选择性的Attend输入...[作者空间]
1 为什么要对特征做归一化 特征归一化是将所有特征都统一到一个大致相同的数值区间内,通常为[0,1]。常用的特征归...[作者空间]
1.Transformer为何使用多头注意力机制?(为什么不使用一个头) 答案解析参考这里:为什么Transfor...[作者空间]
Seq2Seq 是一种循环神经网络的变种,包括编码器 (Encoder) 和解码器 (Decoder) 两部分。S...[作者空间]
与传统的前向神经网络和卷积神经网络 (CNN) 不同,循环神经网络 (Recurrent Neural Netwo...[作者空间]