美文网首页NLP&NLU
中文NLP笔记:14. 中文命名实体提取

中文NLP笔记:14. 中文命名实体提取

作者: 不会停的蜗牛 | 来源:发表于2019-02-23 22:45 被阅读295次

1. NER 是什么

  指的是识别语料中人名、地名、组织机构名等命名实体

  一般包括三大类(实体类、时间类和数字类)和七小类(人名、地名、机构名、时间、日期、货币和百分比)

  是信息抽取、信息检索、机器翻译、问答系统等很多nlp任务必不可少的部分。

2. 常见方法

  1. 基于规则和词典

  采用语言学专家手工构造规则模板,选用特征包括统计信息、标点符号、关键字、指示词和方向词、位置词(如尾字)、中心词等方法,以模式和字符串相匹配为主要手段

  优点:性能要优于基于统计的方法

  缺点:编制过程耗时,特别容易产生错误,系统可移植性不好

  2. 基于统计

  主要包括隐马尔可夫模型 、最大熵、支持向量机、条件随机场等

    最大熵,具有较好的通用性,主要缺点是训练时间长复杂性高

    条件随机场,有特征灵活、全局最优的标注框架,缺点是收敛速度慢、训练时间长

    最大熵和支持向量机比HMM的正确率高一些,HMM的速度要快一些

  3. 二者混合

  借助规则知识提前进行过滤修剪处,同时使用基于统计的方法

3. 一般流程

  1. 对语料进行分词

  2. 对分词结果进行领域标签标注

  3. 对标注的分词进行抽取

  4. 将抽取的分词组成需要的领域的命名实体


学习资料:

《中文自然语言处理入门实战》

相关文章

网友评论

    本文标题:中文NLP笔记:14. 中文命名实体提取

    本文链接:https://www.haomeiwen.com/subject/rfmmyqtx.html