美文网首页
第四章 谈谈分词

第四章 谈谈分词

作者: Chasingcar_501 | 来源:发表于2019-01-08 14:58 被阅读0次

1.中文分词方法的演变
“查字典”:把句子从左至右扫描一遍,遇到字典里有的就标识出来,遇到复合词就找到最长的词匹配,遇到不认识的就分割成单字词。这个简单方法可以解决七八成分词问题,但是遇到稍复杂的问题就无能为力了。
“查字典”优化:一句话应分成数量最少的词串。但是当遇到有二义性的分割就没办法了。另外,并非所有的最长匹配都一定正确。
利用统计语言模型分词的方法:不同的分词方法结果可能会产生不同数量的词串,最好的分词方法应该保证分完词后这个句子出现的概率最大,因此只要找到概率最大的就能找到最好的分词方法。
2.如何衡量分词的结果
运用了统计语言模型后,不同的分词产生的结果差异远小于不同的人之间的差异,这时简单的依靠人工分词的结果比较来衡量分词器的准确性就很难。
只要运用统计语言模型,效果都差不到哪里去,提高的空间微乎其微而且要耗费巨大成本。
人工分词的不一致性主要在于人们对词的颗粒度认识问题。
针对不同的应用,我们可以构造不同的分词器,但这样不仅浪费且没必要。更好的做法是让一个分词器同时支持不同层次的词的切分,也就是说“清华大学”既可以被看成一个整体也可以被切开,然后由不同的应用自行决定切分的粒度。

相关文章

  • 计算机如何进行中文分词

    阅读《数学之美》已经三天,今天看到第四章“谈谈分词”。静静的夜里,回顾一下白天的收获。 中文分词, 问题起因,中文...

  • 第四章~第九章

    第四章:谈谈分词 分词问题不单单只有中文有这个问题,许多亚洲语言都有,甚至在英语法语等拼音也有相关的问题,比如找短...

  • 第四章 谈谈分词

    1.中文分词方法的演变“查字典”:把句子从左至右扫描一遍,遇到字典里有的就标识出来,遇到复合词就找到最长的词匹配,...

  • 语法俱乐部第五章——动名词

    动名词是四种动状词之一,其他三种为第四章的不定词短语,现在分词和过去分词。其中动名词和不定词短语的区别在第四章中已...

  • 数学之美-第四章-谈谈分词

    主体讲述的是中文分词方法的演变历史,由于一些亚洲语言词与词之间没有明确的分界符,因此需要先进分词处理。这也是中文的...

  • 吴军数学之美第二版学习笔记4

    第4章 谈谈分词 一、概念与主题 1,分词的一致性 2,词的颗粒度 3,词的层次 二、延伸阅读 三、备注 1,最简...

  • 第4章 谈谈分词

    以下内容学习、摘录自《数学之美》 利用统计语言模型进行自然语言处理是建立在词的基础上的,因为词是表达语义的最小单位...

  • 数学之美--谈谈分词

    保留初心,砥砺前行 看完了《数学之美》第三章才想起来做一些记录会有更好的效果。 所以从第四章开始也不晚,况且前两章...

  • 《数学之美》之谈谈分词

    如果 简书可以插入音乐 我一定 放个十首八首 因为 听歌看书码字实在太**high了 //:用假诗体开个玩笑~~~...

  • 数学之美在google中文黑板报的原文

    数学之美 系列一 -- 统计语言模型 数学之美 系列二 -- 谈谈中文分词 数学之美 系列三 -- 隐含马尔可夫模...

网友评论

      本文标题:第四章 谈谈分词

      本文链接:https://www.haomeiwen.com/subject/koyvrqtx.html