第四章谈谈分词

作者: Chasingcar_501 | 来源:发表于2019-01-08 14:58 被阅读0次

计算机如何进行中文分词
第四章~第九章
第四章谈谈分词
语法俱乐部第五章——动名词
数学之美-第四章-谈谈分词
吴军数学之美第二版学习笔记4
第4章谈谈分词
数学之美--谈谈分词
《数学之美》之谈谈分词
数学之美在google中文黑板报的原文

1.中文分词方法的演变
“查字典”：把句子从左至右扫描一遍，遇到字典里有的就标识出来，遇到复合词就找到最长的词匹配，遇到不认识的就分割成单字词。这个简单方法可以解决七八成分词问题，但是遇到稍复杂的问题就无能为力了。
“查字典”优化：一句话应分成数量最少的词串。但是当遇到有二义性的分割就没办法了。另外，并非所有的最长匹配都一定正确。
利用统计语言模型分词的方法：不同的分词方法结果可能会产生不同数量的词串，最好的分词方法应该保证分完词后这个句子出现的概率最大，因此只要找到概率最大的就能找到最好的分词方法。
2.如何衡量分词的结果
运用了统计语言模型后，不同的分词产生的结果差异远小于不同的人之间的差异，这时简单的依靠人工分词的结果比较来衡量分词器的准确性就很难。
只要运用统计语言模型，效果都差不到哪里去，提高的空间微乎其微而且要耗费巨大成本。
人工分词的不一致性主要在于人们对词的颗粒度认识问题。
针对不同的应用，我们可以构造不同的分词器，但这样不仅浪费且没必要。更好的做法是让一个分词器同时支持不同层次的词的切分，也就是说“清华大学”既可以被看成一个整体也可以被切开，然后由不同的应用自行决定切分的粒度。

网友评论

本文标题：第四章谈谈分词

本文链接：https://www.haomeiwen.com/subject/koyvrqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

第四章谈谈分词

相关文章

计算机如何进行中文分词

第四章~第九章