1. 目录
![](https://img.haomeiwen.com/i3940902/d52a104261e7f288.png)
-
从非结构化文本中进行信息抽取
从非结构化文本中进行信息抽取
非结构化数据:图像、文本、视频、声音
结构化数据:数据表 -
信息抽取分为实体抽取与关系抽取
信息抽取分为实体抽取与关系抽取
-
信息抽取示例
信息抽取示例
- NER识别实体
- 关系分析:分析每个实体之间的关系
- 指代消解 :it is located right 中的it(代词)属于hotel、hinton、nyc的哪一个实体?进行判断。
- 实体统一:给定两个实体,判断是否指向同一实体?
例如:北京abc公司 、abc有限公司 ==> 北京abc科技有限公司。将不同表述的同一实体,换成标准化的形态 -
实体消歧:本质是在于一个词很有可能有多个意思,也就是在不同的上下文中所表示的含义不太一样,判别该实体属于哪个意思。
image.png
- 信息抽取更多的应用
- 知识库的搭建
- Google Scholar, CiteSeerX • ⽤用户库: Rapleaf, Spoke
- 购物引擎,产品搜索
- 专利利分析
- 证券分析
- 问答案系统
-
搜索引擎返回信息流,问答系统给出答案
image.png
2.命名实体识别
命名实体识别(Named Entity Recognition,简 称NER),⼜又称作“专名识别”,是指识别⽂文本中 具有特定意义的实体,主要包括⼈人名、地名、机 构名、专有名词等。
-
对话机器人(90%基于规则,规则做不了才用模型)
image.png
-
新闻实体提取
image.png
-
英文工具:NLTKNE、Spacy、Stanford Parser
-
中文工具:HanNLP、HIT NLP、Fudan NLP
-
简历分析
简历分析
- 毕业学校
- 毕业年份
- 学历
- 工作时⻓
- 技能
- 地点
- 工作过的公司名
网友评论