Extracting Information from Text
原文
1. 信息提取流程
image.png- 把语料分割为句子列表。
- 对每个句子做分词 (tokenization)
- 对词性打标签 Part of speech tagging (POS )
- 实体识别 (结果是 Chuncked sentences)
- 关系提取
1.1 POS 参考
为了便于参考, 引用 Jurafsky & Martin , Speech and Language Processing, Chap 8
image.png2. Chunking
Chunking 是在Token之上, 句子之下的一个语义单元。
图片来源于 NLTK2.1 Noun Phrase Chunking
Noun Phrase Chunking 也叫 NP Chunking。 NP Chunking 是一个以名词为主的Chucking, 之所以单拿出来说, 是因为实体识别的主要研究对象就是名词。 一个 NP Chucking 可能比语义上的名词性短语要小。
例如:
名词性短语:
market for system-management software for Digital's hardware
对应的 NP Chunking:
the market
2.2 Tag Patterns
Tag Patterns 是用<POS> 组合起来的一个用来描述 Chunking 的规则。 它借鉴了正则表达式的规范,比如:+, * 等等。 Tag Patterns =用于提取语料中的 Chunking。
例如:
<DT>?<JJ>*<NN>
上面的 Tag Patterns 可以对应以下这些 NP Chunking
- another/DT sharp/JJ dive/NN
- trade/NN figures/NNS
- any/DT new/JJ policy/NN measures/NNS
- earlier/JJR stages/NNS
- Panamanian/JJ dictator/NN Manuel/NNP Noriega/NNP
2.3 Chunking with Regular Expressions
可以用如下方法, 利用正则表达式加上Tag Patterns,从句子中提取Chunking
image.png2.4 Exploring Text Corpora
在语料中搜索需要的 Chucking , 具体方法参见代码。
2.5 Chinking
Chinking 是对Chucking 的一个擦除性修饰, 它的作用是把部分内容从 Chucking得到的内容中去除。
注意: Chucking ({})和 Chinking (}{) 规则使用的符号相反。
比如:
图片来源于 NLTK
这个例子中,Chucking 匹配了所有的单词, 而Chinking 把匹配上的 Chucking 用 “<VBD|IN>+” 规则断开。
2.7 Representing Chunks: Tags vs Trees
有两种表示一个句子中Chucks组成的方法。
- 基于 IOB tags 的方法
- 基于Tree 的方法
网友评论