美文网首页
Greedy NLP Learning Notes(六)信息抽取

Greedy NLP Learning Notes(六)信息抽取

作者: 不可能打工 | 来源:发表于2021-04-19 16:53 被阅读0次

1. 目录

信息抽取目录
  • 从非结构化文本中进行信息抽取


    从非结构化文本中进行信息抽取

    非结构化数据:图像、文本、视频、声音
    结构化数据:数据表

  • 信息抽取分为实体抽取与关系抽取


    信息抽取分为实体抽取与关系抽取
  • 信息抽取示例


    信息抽取示例
  1. NER识别实体
  2. 关系分析:分析每个实体之间的关系
  3. 指代消解 :it is located right 中的it(代词)属于hotel、hinton、nyc的哪一个实体?进行判断。
  4. 实体统一:给定两个实体,判断是否指向同一实体?
    例如:北京abc公司 、abc有限公司 ==> 北京abc科技有限公司。将不同表述的同一实体,换成标准化的形态
  5. 实体消歧:本质是在于一个词很有可能有多个意思,也就是在不同的上下文中所表示的含义不太一样,判别该实体属于哪个意思。


    image.png
  • 信息抽取更多的应用
  1. 知识库的搭建
  2. Google Scholar, CiteSeerX • ⽤用户库: Rapleaf, Spoke
  3. 购物引擎,产品搜索
  4. 专利利分析
  5. 证券分析
  6. 问答案系统
  • 搜索引擎返回信息流,问答系统给出答案


    image.png

2.命名实体识别

命名实体识别(Named Entity Recognition,简 称NER),⼜又称作“专名识别”,是指识别⽂文本中 具有特定意义的实体,主要包括⼈人名、地名、机 构名、专有名词等。

  • 对话机器人(90%基于规则,规则做不了才用模型)


    image.png
  • 新闻实体提取


    image.png
  • 英文工具:NLTKNE、Spacy、Stanford Parser

  • 中文工具:HanNLP、HIT NLP、Fudan NLP

  • 简历分析


    简历分析
  1. 毕业学校
  2. 毕业年份
  3. 学历
  4. 工作时⻓
  5. 技能
  6. 地点
  7. 工作过的公司名

相关文章

网友评论

      本文标题:Greedy NLP Learning Notes(六)信息抽取

      本文链接:https://www.haomeiwen.com/subject/ffrdwktx.html