一、
- dnn当前现状:need large corpus,当数据量很少时很难训练处一个泛华能力较强的模型。
- 考虑:如何扩充直接/间接性的扩充数据集,提高模型泛华、拟合能力?
二、对文本多分类任务,作者提出了基于RNN的三种不同的共享信息机制来对文本进行建模,且取得了较好的成果。
- 共享何种信息:相似任务在训练过程中产生的隐层特征。
- 本文在实验中用到的相似任务:
SST-1:5个情绪类别的电影影评,来自斯坦福情感数据库
SST-2:2分类电影影评,来自斯坦福数据库
SUBJ:主观性数据集,任务目的是将句子分为主观和客观
IMDB:2分类的电影影评,大多数评价为长句子
传统RNN:
作者提出的三种多任务RNN架构:
模型一:
- 任务m、n共享lstm层,最后一步输出各自的预测结果
-
xm为task m的输入,xs为一个可训练的随机向量
- 为什么要在词向量的基础上加上一个随机向量?
模型二:
每个任务均有一个lstm层,但两个lstm layer之间存在连接,从而共享彼此的隐层信息。每一时刻所有任务的hidden state会和下一时刻的x一起作为输入。
在设计模型架构时,作者借鉴了GRU的部分思想,在两个lstm layer之间引入了gate门控单元。调整后的记忆单元计算方式:
模型三:
每个任务均有一个lstm层,另外引入双向lstm作为共享层来捕捉所有任务的有用信息用于共享。
三、训练
Fine Tuning:对于模型1和模型3,具有一个共享层,在联合学习之后可以进行针对性的微调,优化模型效果。
Pre-training of the shared layer with neural language model:对于模型3,共享层可以通过无监督学习进行与训练,用四个数据集进行语言模型的训练。
结果比较:
结论:
论文的创新点主要在于:作者将多任务学习框架引入RNN,缓解了dnn在训练时数据量不够的问题
参考:
- Recurrent Neural Network for Text Classification with Multi-Task Learning
- Recurrent Neural Network for Text Classification with Multi-Task Learning https://zhuanlan.zhihu.com/p/27562717
网友评论