美文网首页
[笔记][NLTK] Chap 7 从文本中提取信息 (1)

[笔记][NLTK] Chap 7 从文本中提取信息 (1)

作者: 数科每日 | 来源:发表于2020-11-02 16:01 被阅读0次

Extracting Information from Text
原文


文本参考代码 (Github)

1. 信息提取流程

image.png
  1. 把语料分割为句子列表。
  2. 对每个句子做分词 (tokenization)
  3. 对词性打标签 Part of speech tagging (POS )
  4. 实体识别 (结果是 Chuncked sentences)
  5. 关系提取

1.1 POS 参考

为了便于参考, 引用 Jurafsky & Martin , Speech and Language Processing, Chap 8

image.png

2. Chunking

Chunking 是在Token之上, 句子之下的一个语义单元。

图片来源于 NLTK

2.1 Noun Phrase Chunking

Noun Phrase Chunking 也叫 NP Chunking。 NP Chunking 是一个以名词为主的Chucking, 之所以单拿出来说, 是因为实体识别的主要研究对象就是名词。 一个 NP Chucking 可能比语义上的名词性短语要小。

例如:

名词性短语:
market for system-management software for Digital's hardware

对应的 NP Chunking:
the market

2.2 Tag Patterns

Tag Patterns 是用<POS> 组合起来的一个用来描述 Chunking 的规则。 它借鉴了正则表达式的规范,比如:+, * 等等。 Tag Patterns =用于提取语料中的 Chunking。

例如:
<DT>?<JJ>*<NN>
上面的 Tag Patterns 可以对应以下这些 NP Chunking

  • another/DT sharp/JJ dive/NN
  • trade/NN figures/NNS
  • any/DT new/JJ policy/NN measures/NNS
  • earlier/JJR stages/NNS
  • Panamanian/JJ dictator/NN Manuel/NNP Noriega/NNP

2.3 Chunking with Regular Expressions

可以用如下方法, 利用正则表达式加上Tag Patterns,从句子中提取Chunking

image.png

2.4 Exploring Text Corpora

在语料中搜索需要的 Chucking , 具体方法参见代码。

2.5 Chinking

Chinking 是对Chucking 的一个擦除性修饰, 它的作用是把部分内容从 Chucking得到的内容中去除。

注意: Chucking ({})和 Chinking (}{) 规则使用的符号相反。

比如:


图片来源于 NLTK

这个例子中,Chucking 匹配了所有的单词, 而Chinking 把匹配上的 Chucking 用 “<VBD|IN>+” 规则断开。

2.7 Representing Chunks: Tags vs Trees

有两种表示一个句子中Chucks组成的方法。

  1. 基于 IOB tags 的方法
image.png
  1. 基于Tree 的方法
image.png

相关文章

网友评论

      本文标题:[笔记][NLTK] Chap 7 从文本中提取信息 (1)

      本文链接:https://www.haomeiwen.com/subject/klkmvktx.html