1. NER 是什么
指的是识别语料中人名、地名、组织机构名等命名实体
一般包括三大类(实体类、时间类和数字类)和七小类(人名、地名、机构名、时间、日期、货币和百分比)
是信息抽取、信息检索、机器翻译、问答系统等很多nlp任务必不可少的部分。
2. 常见方法
1. 基于规则和词典
采用语言学专家手工构造规则模板,选用特征包括统计信息、标点符号、关键字、指示词和方向词、位置词(如尾字)、中心词等方法,以模式和字符串相匹配为主要手段
优点:性能要优于基于统计的方法
缺点:编制过程耗时,特别容易产生错误,系统可移植性不好
2. 基于统计
主要包括隐马尔可夫模型 、最大熵、支持向量机、条件随机场等
最大熵,具有较好的通用性,主要缺点是训练时间长复杂性高
条件随机场,有特征灵活、全局最优的标注框架,缺点是收敛速度慢、训练时间长
最大熵和支持向量机比HMM的正确率高一些,HMM的速度要快一些
3. 二者混合
借助规则知识提前进行过滤修剪处,同时使用基于统计的方法
3. 一般流程
1. 对语料进行分词
2. 对分词结果进行领域标签标注
3. 对标注的分词进行抽取
4. 将抽取的分词组成需要的领域的命名实体
学习资料:
《中文自然语言处理入门实战》
网友评论