1.语义计算:语音、形态、语法、语义、语用。通常会需要NLP其他领域技术,包括语法分析等。
2.为何面向自然语言的语义分析很难:
(1)语言的歧义
(2)社会交流中共有知识通常会省略。如他,小李等指代词。
(3)语言动态变化。如粉丝、freestyle。
(4)不同层次歧义的传递与影响。例如分词结果
3.(英文)词语形态规范化
(1)stem
(2)词性还原
4.词义:一个词语的特定意义
(1)一个词语可能有多个词义
(2)一个词义能被一个注释所描述
(3)一词多义:词义完全不相关(homonyms);词义之间有关联(polysemes);两者之间界限模糊。
5.词汇关系
(1)同义词:两个词的两个词义相同或相近。不存在完美的同义词,同义词可能在某些上下文中有所不同;最好基于词义来判断。
(2)反义词:词义相反。尽管反义词具有相反的意义,但它们在某种角度仍非常相似,具有一定的共性。利用基于语料库的上下文相似性度量难以区分同义词与反义词。
(3)下位词(Hyponym)与上位词(Hypernym):范围大的叫上位词、范围小的叫下位词。
(4)部分(Meronym)与整体(Holonym)
方法:(1)基于模板
(2)基于百科
(3)基于学习(分类或者排序)
网友评论