美文网首页
命名实体识别概述

命名实体识别概述

作者: 一心一意弄算法 | 来源:发表于2020-02-21 10:54 被阅读0次

命名实体识别

即专有名词,如人名,地名,机构等等

有限集合,基于词库

1.词库+分类
词库中无法识别的一些词,可通过相似度,以及分类方法识别
例如 词库中感冒药品, 感冒药

无法穷尽

正则:邮箱 手机号
分类方法

方法

  • 利用规则(正则)
  • 投票模型
  • 分类模型
  • 非时序模型 ,逻辑回归, SVM
  • 时序模型:HMM,CRF,LSTM+CRF,BERT+LSTM+CRF等等

投票决策

原理:统计训练数据中每个词/字出现标签的次数,哪个标签多,取哪个。

非时序模型

原理:对每个词/字做分类,需要做特征工程,比如这个词字个数,是不是数字,是否出现在开头,词性,上下文信息等等,需要构造特征。
文本领域特征工程(机器学习必备技能):

  1. word-base featrues:
    • 前后词,当前词,前前后后单词等等 unigram。
    • 提取当前词的 2-gram
    • 3-gram等等
  2. pos-base featrues:
    • 当前词的词性,前后词,前前后后词-unigram
    • 2-gram,3-gram 等等
  3. 如果是英文,还可以提取前后缀词。(未曾涉猎)
  4. 当前词特点:
    • 词长,是否包含某个字词
    • 包含有多少个数字
    • 词频
  5. 依存句法分析:
    • 提取单词之间的依赖关系,unigram,2-gram,3-gram
  6. TF-IDF

时序模型:

比较主流的模型结构:bert+ LSTM +CRF。
后续附上代码

相关文章

网友评论

      本文标题:命名实体识别概述

      本文链接:https://www.haomeiwen.com/subject/fxiqqhtx.html