摘要
文章报告了一系列神经网络的实验,利用预训练的词向量来训练网络,完成句级别分类任务。文章展示了少许超参数调整和静态词向量的简单CNN能在多个基准上达到完美的效果。学习任务特定的词向量通过微调获得了性能上的进一步提升。另外,提出了一个简单改进的架构,允许使用任务特定的词向量和静态的词向量。这里讨论的CNN模型在7项任务中有4项得到了state of art的结果,包括语义分析和问题分类。
模型
图一展示了模型的架构。它是一个轻微变化的CNN架构。是一个k维的词向量对应句子中的第i的单词。一个长度为n的句子表示为
是联结操作符。一个卷积操作涉及一个过滤器,它有一个h个单词的窗口来产生新的特征。特征由一个窗口的单词生成。
通过窗口滑动可以产生一个feature map
- MR: 电影评论,每个评论一句话。分类涉及检测正面和负面的评论。
- SST-1: Stanford Sentiment Treebank。MR的扩展,但是有训练,Dev,测试的分割,和细粒度的标签。(very positive,positive, neutral, negative, very negative)
- SST-2: 和SST-1相同,但是中立评论的删除和二进制标签。
- Subj: 主观性数据集,把一个句子分为主观和客观。
- TREC: TREC问题数据集。任务涉及把问题分成6种问题类型 (whether the question is about person, location, numeric information, etc.)
- CR: 各种产品的顾客评论。任务是预测正面和负面的评论
- MPOA: 意见两极检测。
超参数和训练
- 改进线性单元
- 3,4,5的过滤器窗口,每个窗口有100的feature map
- dropout rate(p) 是0.5,constraint (s) 是3,mini-batch size是50
模型变种
- 随机词向量
- 用word2vec训练的词向量
- 和2相同,不过会微调
4.两个通道,都用word2vec训练,只有一个通道的词向量会被反向传播更新
实验结果
使用pre-trained vectors有明显提高。加一个通道后也说不清楚好坏啊。non-static更适应specific task。
网友评论