美文网首页数据分析
《数学之美》之谈谈分词

《数学之美》之谈谈分词

作者: 乌七七v | 来源:发表于2017-08-31 23:17 被阅读19次

如果

简书可以插入音乐

我一定

放个十首八首

因为

听歌看书码字实在太**high了

//:用假诗体开个玩笑~~~

在数字时代,拼音文字有着太多的无奈。中文输入法的诞生就有一本书去描述,是个波澜壮阔的研究和产业史。

不止是在输入的时候有麻烦,对于机器如何来理解亚洲语言这种词与词之间没有明确分隔符的语言,也是个大麻烦。

这问题不仅在现在存在,以前也存在。如果你见过没有注解的论语,那也是一片片的字,难以理解其中具有二义性的语句。

一开始,中文的分词也是从查字典的角度去让机器理解的。但是,一旦遇到二义性,就跟一个完全对文言文没有经验的人一样,字都认识,组合成句子却不知道什么意思了。

还是要靠统计语言模型的力量。

最好的分词方法应该是要保证分完词之后,这个句子出现的概率最大。这是个动态规划的问题,用到了维比特算法。

好消息是,

分词已经属于已经解决的问题,并非是什么难题。只要采用基本的统计语言模型,和一些业界熟知的技巧既能得到非常好的结果。甚至,不同的分词器产生的结果的差异要远远小于不同人之间看法的差异。这意味着,无法更优解了。

那分词是不是就无事可干了?也不是的。

对于“北京大学”,应该分成“北京”和“大学”还是“北京大学”,对于不同学者来说,还是有争议的。对于不同的使用场景,分词的颗粒度也会有争议。对于某些应用来说,需要尽可能地找到各种复合词,有些则相反。

而我们又不想构建不同的分词器(鬼知道要分成多少种)。因此,就需要让分词器支持不同的应用场景需要。这样,也就需要建立基本词表和复合词表,由复合词表来描述复合词由哪些基本词构成。

工作就来了。

我们需要不断地做数据挖掘,去完善复合词的词典。这也是近些年来中文分词工作的重点。

目前市场上的分词产品很多,百度出来一大堆,性能分析也有。对于我们正在用的python来说,jieba模块是比较好的开源工具,还支持复合词词典。

收尾。此时在放的歌是《Defeated》~~~~~~~歌词有种老人与海中“人可以被毁灭,但不可以被打败”的意思(哈哈哈,这鸡汤当然是网友熬出来的,拿来用用)。

相关文章

  • 数学之美在google中文黑板报的原文

    数学之美 系列一 -- 统计语言模型 数学之美 系列二 -- 谈谈中文分词 数学之美 系列三 -- 隐含马尔可夫模...

  • 数学之美--谈谈分词

    保留初心,砥砺前行 看完了《数学之美》第三章才想起来做一些记录会有更好的效果。 所以从第四章开始也不晚,况且前两章...

  • 《数学之美》之谈谈分词

    如果 简书可以插入音乐 我一定 放个十首八首 因为 听歌看书码字实在太**high了 //:用假诗体开个玩笑~~~...

  • 计算机如何进行中文分词

    阅读《数学之美》已经三天,今天看到第四章“谈谈分词”。静静的夜里,回顾一下白天的收获。 中文分词, 问题起因,中文...

  • 数学之美-第四章-谈谈分词

    主体讲述的是中文分词方法的演变历史,由于一些亚洲语言词与词之间没有明确的分界符,因此需要先进分词处理。这也是中文的...

  • 《数学之美》统计语言模型、分词

    语言模型 基于规则的模型 基于概率的模型 统计语言模型 问题:整个句子的概率:为了保证句子通顺,不出现歧义,计算整...

  • UE4 等边三角形

    数学之美

  • 05信息论

    信息熵——参看《数学之美》 第6章 86 最大熵——参看《数学之美》 第20章202

  • 数学之美,AI之始(下)

    数学之美,AI(人工智能)之始(上) 数学之美,AI之始(中) 人工智能之隐忧有哪些? 隐私安全,数据歧视和...

  • 自然语言处理(NLP)相关

    ヾ(◍°∇°◍)ノ゙-参考 结巴分词使用 中文分词之结巴分词~~~附使用场景+demo(net) jieba分词、...

网友评论

    本文标题:《数学之美》之谈谈分词

    本文链接:https://www.haomeiwen.com/subject/jxncjxtx.html