读论文

作者: 小小程序员一枚 | 来源:发表于2020-11-03 19:32 被阅读0次

    tensorflow版本问题:
    https://blog.csdn.net/weixin_44038165/article/details/102959059?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.channel_param&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.channel_param

    huggingface transformers实现命名实体识别:
    http://pytorchchina.com/2020/03/04/transformers-%E4%BD%BF%E7%94%A8%E6%95%99%E7%A8%8B/

    题目:TENER: Adapting Transformer Encoder for Named Entity Recognition
    摘要:由于Transformer在NER上表现不好,作者提出了一个名为TENER的模型去建模字符特征和词汇特征,通过将方向感知和距离感知以及未缩放的attention结合起来,实现了更好的效果与BiLSTM相比

    • 上面这个例子显示了方向对于识别一个实体的类别的重要性,在“in”后面的单词通常是时间或地点,‘Inc.’前面通常是机构名,而机构名也常常是一组词,所以距离也很重要。为了同时保留对距离和相对位置的感知能力,作者舍弃原本的绝对位置编码而采用相对位置编码,使用参数更少,在NER中效果更好。
    • 上面是模型的主要架构,可以看到:
      1)嵌入层的字符特征提取主要是multi-head attention,最终的word embedding是将抽取出来的字符特征和词嵌入拼接起来
      2)作者的主要创新在transformer层,原来两个位置向量之间的点积只能反映单词间的距离,而不能区分方向,为此作者提出了一种相对位置编码,公式如下:




      可以看到,Rt和R-t是不一样的,这样就有了方向。

      3)作者去掉了原来的缩放点积中的缩放值

    相关文章

      网友评论

          本文标题:读论文

          本文链接:https://www.haomeiwen.com/subject/bzmmvktx.html