情绪分类项目指的是,计算机阅读一段文字,然后判断写这段文字的时候喜不喜欢这个东西,这类问题是NLP的一个重要的组成部分。
解决这类问题的难点是它可能没有数量非常多的数据集,但是通过词嵌入标记,我们可以在只有中等数据集的情况下很好地解决这类问题。
有一个基础的模型是,将这几个词的嵌入向量提取出来,然后放到一个平均的单元里,再输入到softmax分类器当中,得出一个值。这样输入到softmax里的向量值就是整个句子里所有单词的平均值。
这个算法在大部分情况下效果还不错,但是这个算法就没有考虑到词序的问题,假如出现我们左下角这种句子,虽然里面有很多个good但是表示的是负面的评价,这个就会产生比较不准确的结论了。
我们可以使用一种简单的多对一RNN神经网络进行计算,还是通过单词找到它对应的嵌入向量,然后放到一个基础的RNN网络当中,在最后一个词输出到一个softmax分类器当中,然后得到它的评分。
这种模型会考虑到词序的问题,也会考虑到not good这种影响,因此会更加准确。
网友评论