美文网首页
计算机如何进行中文分词

计算机如何进行中文分词

作者: 影重月 | 来源:发表于2020-01-12 21:17 被阅读0次

    阅读《数学之美》已经三天,今天看到第四章“谈谈分词”。静静的夜里,回顾一下白天的收获。

    中文分词

    问题起因,中文以及一些亚洲语言,词之间没有明确的分界符,目前无法直接进行自然语言处理,需要对句子进行分词后再处理。

    分词方法,最简单的方法--查字典(梁教授提出):对句子从左到右扫描,遇到字典中的词就标识,遇到复合词就取字典中最长词匹配,遇到不认识的词就分割成单字。随后,王博士将查字典方法理论化,提出最少词数的分词理论(一句话分成数量最少的词串)。

    上述方法的不足之处在于无法解决分词的二义性问题,因此,郭博士提出统计语言模型解决分词的二义性问题。该方法简单来说,就是选择最有可能出现(概率最大)的分词方法。

    总的来说,分词问题属于已经解决的问题,并已被应用到西方语言的手写体识别中。

    相关文章

      网友评论

          本文标题:计算机如何进行中文分词

          本文链接:https://www.haomeiwen.com/subject/ymewactx.html