美文网首页
第四章 谈谈分词

第四章 谈谈分词

作者: Chasingcar_501 | 来源:发表于2019-01-08 14:58 被阅读0次

    1.中文分词方法的演变
    “查字典”:把句子从左至右扫描一遍,遇到字典里有的就标识出来,遇到复合词就找到最长的词匹配,遇到不认识的就分割成单字词。这个简单方法可以解决七八成分词问题,但是遇到稍复杂的问题就无能为力了。
    “查字典”优化:一句话应分成数量最少的词串。但是当遇到有二义性的分割就没办法了。另外,并非所有的最长匹配都一定正确。
    利用统计语言模型分词的方法:不同的分词方法结果可能会产生不同数量的词串,最好的分词方法应该保证分完词后这个句子出现的概率最大,因此只要找到概率最大的就能找到最好的分词方法。
    2.如何衡量分词的结果
    运用了统计语言模型后,不同的分词产生的结果差异远小于不同的人之间的差异,这时简单的依靠人工分词的结果比较来衡量分词器的准确性就很难。
    只要运用统计语言模型,效果都差不到哪里去,提高的空间微乎其微而且要耗费巨大成本。
    人工分词的不一致性主要在于人们对词的颗粒度认识问题。
    针对不同的应用,我们可以构造不同的分词器,但这样不仅浪费且没必要。更好的做法是让一个分词器同时支持不同层次的词的切分,也就是说“清华大学”既可以被看成一个整体也可以被切开,然后由不同的应用自行决定切分的粒度。

    相关文章

      网友评论

          本文标题:第四章 谈谈分词

          本文链接:https://www.haomeiwen.com/subject/koyvrqtx.html