中文NLP笔记：14. 中文命名实体提取

作者: 不会停的蜗牛 | 来源:发表于2019-02-23 22:45 被阅读295次

中文NLP笔记：14. 中文命名实体提取
NLP 的命名实体识别 Jieba
动手实战：中文命名实体提取
NLP第14课：动手实战中文命名实体提取
NLP第14课：动手实战中文命名实体提取
自然语言处理NLP知名的公司和开放API
目录
深度学习--biLSTM_CRF 命名实体识别
基于CRF的中文命名实体识别模型
Python自然语言处理资料库（长期更新，欢迎补充）

1. NER 是什么

指的是识别语料中人名、地名、组织机构名等命名实体

一般包括三大类（实体类、时间类和数字类）和七小类（人名、地名、机构名、时间、日期、货币和百分比）

是信息抽取、信息检索、机器翻译、问答系统等很多nlp任务必不可少的部分。

2. 常见方法

1. 基于规则和词典

采用语言学专家手工构造规则模板，选用特征包括统计信息、标点符号、关键字、指示词和方向词、位置词（如尾字）、中心词等方法，以模式和字符串相匹配为主要手段

优点：性能要优于基于统计的方法

缺点：编制过程耗时，特别容易产生错误，系统可移植性不好

2. 基于统计

主要包括隐马尔可夫模型、最大熵、支持向量机、条件随机场等

最大熵，具有较好的通用性，主要缺点是训练时间长复杂性高

条件随机场，有特征灵活、全局最优的标注框架，缺点是收敛速度慢、训练时间长

最大熵和支持向量机比HMM的正确率高一些，HMM的速度要快一些

3. 二者混合

借助规则知识提前进行过滤修剪处，同时使用基于统计的方法

3. 一般流程

1. 对语料进行分词

2. 对分词结果进行领域标签标注

3. 对标注的分词进行抽取

4. 将抽取的分词组成需要的领域的命名实体

学习资料：

《中文自然语言处理入门实战》

网友评论

NLP&NLU

本文标题：中文NLP笔记：14. 中文命名实体提取

本文链接：https://www.haomeiwen.com/subject/rfmmyqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

中文NLP笔记：14. 中文命名实体提取

相关文章