最近对“有多少人工就有多少智能”有了一些理解。虽然以前很鄙视这个话,觉得是说很多工程用人工的方法来包装成智能。现在对这句话有了更深的理解。
最近做情感分析,用的标注的一万多条语料。因为语料比较少,所以效果差强人意,优化的一个很大的方向就是语料的扩充。然而人标注毕竟比较慢,就想了一个投机取巧的办法,用情感词典做基础,如果一个句子中含有较多正面词就标注为正面,含有较多负面词就标注为负面;最后人工简单过一下,很快就生成了十万左右的语料。
开始我想,这个方法妙啊,“半监督”生成了这么多语料。之前的一层模型改成2层(不包括全联接层),美滋滋跑了一遍,得到了训练集和验证集正确率都非常接近100%的好结果。
但是,似乎有哪里异常!对,后来我发现,正是用这种投机取巧的方式生成了语料,所以模型似乎也学到了这种投机取巧的方式:遇到我们词典里的正面词,就判断成正面;遇到词典里负面词,就判断成负面。最后模型的真正的泛化性能比较差。
网友评论