4.1

作者: 我喜欢过洋娃娃 | 来源:发表于2018-04-03 12:09 被阅读0次

torchtext Use pre-trained embedding

这里可以参照这个代码:
https://github.com/JinYang88/Emoji-Prediction/blob/master/src/datahelper.py
(这里只是用自己的embedding, 比如word hashing, 比如lstm的hidden layer的输出等等, 因为如果Glove 或者 word2vec应该有一些更完备的API;

还有一个包我没用过:https://github.com/iamalbert/pytorch-wordemb


基本思路就是,先自己建立{'word': vector}dict
然后用上述代码中的 vocab_to_matrix 建立一个wordvec_matrix

然后在自己的nn的类的初始化函数里:

V  = args.embedding_num
D  = args.embedding_length
self.embedding = nn.Embedding(V, D)
self.embedding.weight.data.copy_(wordvec_matrix)

如果来一个query,对这个query的每一个词的embedding就是:

query = self.embedding(query)

关于DL可解释性的讨论

https://zhuanlan.zhihu.com/p/30074544
可以去看看这个博客以及下面的讨论,我觉得思路很好

想到NLP和CV的区别,如果说图像,确实人可能没有理解的那么深刻,因为图像上的东西毕竟属于大自然。

但是NLP,语言是人创造出来的东西,如果想要让机器理解语言,就要按照人的思路走,所以NN的可解释性可能就要重要一些。

相关文章

网友评论

      本文标题:4.1

      本文链接:https://www.haomeiwen.com/subject/tvpqhftx.html