想法来源:很多的词向量表达都是将词作为单一体来看待的,没有考虑参数的共享。从感知角度来说,就是失去了原有的内部结构。
价值:
a. 学习到词与词形态学方面的信息,词与词交集越多,且语义相近的数据集,其效果越好。(可查看sisg-的效果)
b. 较好解决OOV的情况,对于长尾数据是很好的补充。(可查看sisg的效果)
方法:“火影忍者”的2-gram表示——<火,火影,影忍,忍者,者>,其中<和>分别为起始和结尾标识符。把原本的一个词分词若干个子单位。
缺点:词典数量巨大
详细方案:
举例(n<4):word =“我/睡/不/着/仔细/看/了/半夜”,unigram有8个,bigram有7个,trigram有6个。这21个gram向量独立表示,然后用这21个向量和来表示这个word。
这样"睡"既要单独学习,也要在"我睡"、"睡不"、"我睡不"、"睡不着"当中表示,逻辑上有参数共享的功用,从而更好的学习表示。
然后利用skip-gram可以来无监督的训练。
网友评论