word2vec

作者: lzc007 | 来源:发表于2019-07-22 10:20 被阅读0次

    本文主要介绍word2vec包含的两个模型 CBOX(Continuous Bag of Words) 和skip-gram,以及两个训练方法hierarchical softmax 、negative sampling

    1 CBOX and skip-gram

    CBOX
    输入: 词的上下文w(t-2),w(t-1),w(t+1),w(t+2)

    输出:当前词 w(t)

    目标函数:对数似然函数

    skip-gram
    输入: 当前词w(t)

    输出: 词的上下文w(t-2),w(t-1),w(t+1),w(t+2)
    目标函数:对数似然函数

    已知目标函数是什么之后,关键在于怎么构造这个目标函数。下面讲述分别讲述hierarchical softmax 、negative sampling两个方法。

    2 基于 Hierarchical Softmax 的模型

    2.1 CBOX

    模型框架

    CBOX 模型网络结构示意图
    针对样本 (Context(w),w)(窗口大小为2c)
    输入层: 2c 个词的词向量 V(Context(w)1) V(Context(w)2) ... V(Context(w)2c)
    投影层:

    输出层:

    2.2 skip-gram

    相关文章

      网友评论

          本文标题:word2vec

          本文链接:https://www.haomeiwen.com/subject/ufrrlctx.html