我们上一节课讲了关于如何对词进行特征提取的一些方法,如果我们现在已经有了一个对词典内所有词进行特征提取之后的数据,那么我们可以使用他们,对预测进行判断。
假设我们现在有两个句子,上面那个是训练集当中的句子,前面是人名,后面是一个种橙子的农民。
在测试集当中有另外的一个句子,讲的是一个durian cultivator(榴莲种植家)。如果在训练集当中,既没有见过durian这个词,也没有见过cultivator这个词,就很难对这个句子进行分析。
但是如果我们有这两个词在词典当中,而且已经与orange和farmer进行了特征比对,发现他们是相似的词,那么也许这个模型就会更加准确地知道这句话对的概率是多少。
这种应用的方式叫做迁移学习(transfer learning),通过网上获得大量无标签文本,获得词典的特征向量数据,然后把他们应用到一个只有少量标记的命名实体任务当中。
如果我们的训练数据集比较大,那么还有一个可选项是,通过微调词嵌入的特征,来提高准确程度,但是这是只有在训练集比较大的时候效果比较好。
词嵌入在某些程度上,跟人脸识别有一定的相同之处。人脸识别当中的encoding跟词嵌入的embedding其实是有异曲同工之处的。
但他们其实也有些不同,在人脸识别当中,可以识别任意一张图片,这张图片大概率之前是没有见过的,但是通过encoding都能得到一个准确的编码。在NLP当中,我们往往使用的都是一个固定的词汇表,通过对词汇表里的东西进行预训练得到的特征向量集,基本上不会有未出现的单词。
网友评论