阅读《数学之美》已经三天,今天看到第四章“谈谈分词”。静静的夜里,回顾一下白天的收获。
中文分词,
问题起因,中文以及一些亚洲语言,词之间没有明确的分界符,目前无法直接进行自然语言处理,需要对句子进行分词后再处理。
分词方法,最简单的方法--查字典(梁教授提出):对句子从左到右扫描,遇到字典中的词就标识,遇到复合词就取字典中最长词匹配,遇到不认识的词就分割成单字。随后,王博士将查字典方法理论化,提出最少词数的分词理论(一句话分成数量最少的词串)。
上述方法的不足之处在于无法解决分词的二义性问题,因此,郭博士提出统计语言模型解决分词的二义性问题。该方法简单来说,就是选择最有可能出现(概率最大)的分词方法。
总的来说,分词问题属于已经解决的问题,并已被应用到西方语言的手写体识别中。
网友评论