数学之美-第四章-谈谈分词

作者: 无良笔记 | 来源:发表于2017-04-24 07:42 被阅读16次

主体讲述的是中文分词方法的演变历史,由于一些亚洲语言词与词之间没有明确的分界符,因此需要先进分词处理。这也是中文的自然语言处理的独到之处吧。

主要介绍在分词过程中的奇异性是基于统计语言模型解决,然后再说人工分词出现奇异性的解决(在扩展阅读中)。

之后谈到词的颗粒度和层次,在中文应用场景的不同,所需要的效果就会有所不同,由于对不同场景的应用,构造不同的分词器,会产生资源的浪费,所以之后就有人提出了让一个分词器同时支持不同层次的词的切分,然后在不同应用中自行决定切分的颗粒度。

小结

中文分词以统计语言模型为基础,经过几十年的发展和完善,今天基本上可以看作是一个已经本解决的问题。

当然不同的人做的分词器友好有坏,这里面的差别主要在于数据的使用和工程实现的精度。

相关文章

  • 计算机如何进行中文分词

    阅读《数学之美》已经三天,今天看到第四章“谈谈分词”。静静的夜里,回顾一下白天的收获。 中文分词, 问题起因,中文...

  • 数学之美在google中文黑板报的原文

    数学之美 系列一 -- 统计语言模型 数学之美 系列二 -- 谈谈中文分词 数学之美 系列三 -- 隐含马尔可夫模...

  • 数学之美--谈谈分词

    保留初心,砥砺前行 看完了《数学之美》第三章才想起来做一些记录会有更好的效果。 所以从第四章开始也不晚,况且前两章...

  • 《数学之美》之谈谈分词

    如果 简书可以插入音乐 我一定 放个十首八首 因为 听歌看书码字实在太**high了 //:用假诗体开个玩笑~~~...

  • 数学之美-第四章-谈谈分词

    主体讲述的是中文分词方法的演变历史,由于一些亚洲语言词与词之间没有明确的分界符,因此需要先进分词处理。这也是中文的...

  • 第四章~第九章

    第四章:谈谈分词 分词问题不单单只有中文有这个问题,许多亚洲语言都有,甚至在英语法语等拼音也有相关的问题,比如找短...

  • 《数学之美》统计语言模型、分词

    语言模型 基于规则的模型 基于概率的模型 统计语言模型 问题:整个句子的概率:为了保证句子通顺,不出现歧义,计算整...

  • 第四章 谈谈分词

    1.中文分词方法的演变“查字典”:把句子从左至右扫描一遍,遇到字典里有的就标识出来,遇到复合词就找到最长的词匹配,...

  • UE4 等边三角形

    数学之美

  • 05信息论

    信息熵——参看《数学之美》 第6章 86 最大熵——参看《数学之美》 第20章202

网友评论

    本文标题:数学之美-第四章-谈谈分词

    本文链接:https://www.haomeiwen.com/subject/uryuzttx.html