1.Transformer为何使用多头注意力机制?(为什么不使用一个头) 答案解析参考这里:为什么Transfor...[作者空间]
1. dim 1. torch.mean() Pytorch中维度从前往后依次为0, 1,...;反向为-1, -...[作者空间]
1 前言 前段时间在看到XLNET,Transformer-XL等预训练模式时,看到源代码都用到sentencep...[作者空间]
pre-train是迁移学习的基础,虽然Google已经发布了各种预训练好的模型,而且因为资源消耗巨大,自己再预训...[作者空间]