wordNet
wordNet 是普林斯顿大学开发的英语语料库,可以理解为就是一个词典,在python中的nltk.corpus可以直接获得,它良好的组织结构使得它在nlp中可以帮助我们更好的理解语义。
最基本的来说,wordNet 通过网状结构来组织词汇,将含义相近的词汇划分到一个组中。在这个网状结构之中,词汇与词汇之间的主要通过同义词连接在一起而形成了含义基本一致的group,称为synsets,也就是同义词形成的集合。
不同的synset之间的连接是通过conceptual relation连接到一起的。conceptual relation 实际上包含了很多种关系
- 不同的synset通过上位词和下位词关系连接到一起。比如 “树”可以和它的下位词“柳树”连接到一起,“柳树”可以连接它的下位词“垂柳”...., 还可以是部分和整体的关系
- 动词之间可以通过某方面的层层递进连接到一起,比如 communicate-talk-whisper,通过音量的大小顺序连接,move-jog-run 通过移动的快慢顺序连接
- 动词之间也可以通过相互关联的动作连接在一起,比如 buy-pay success-try 虽然不是同义词,但是会经常同时发生,因此连接在一起,这里就会包含了 因果关系,蕴含关系等
- 形容词之间会将反义词进行连接,如 wet-dry young-old 等,同时也会和它含义相似,但又不完全同义的词汇连接在一起
- 副词大多数的含义和它相应的形容词含义相同
- 词根相同的不同形态词之间会被连接到一起,如 observe (verb), observant (adjective) observation, observatory (nouns),在名词和动词构成的词对儿中,我们已经能够获得该名词相对于动词的具体含义了,比如 sleeping_car 是 sleep 的 LOCATION
这样的多种关系,构成了WordNet 网状结构
网友评论