美文网首页数学之美程序员
数学之美--谈谈分词

数学之美--谈谈分词

作者: 加勒比海鲜王 | 来源:发表于2017-06-12 15:14 被阅读77次

保留初心,砥砺前行

看完了《数学之美》第三章才想起来做一些记录会有更好的效果。

所以从第四章开始也不晚,况且前两章只是相当于介绍了数学的某些历史。

从这篇开始以数学之美为开头的文章更多的是为了自己看,记录一些书中的重点。

如果恰好也有喜欢数学的你看到了这些文章,可以看做是对数学之美这本书的一个简要性概述。

最后,希望高手指正。

数学的魅力就在于将复杂的问题简单化。

这里是我上午写的一篇“文章”,它太短,所以不能称之为一篇文章;然而它承载的内容又太重,早就超过了一篇文章的范畴。

虽然我一直相信的是,哲学是万物的科学,是一切科学的基础和指导,并且这样的信条一直再指导我的生活和学习。

但是在这里我认为,数学是一切问题最终的解决方法,与之前我所相信的并不冲突。

在我看来,数学可以给一切以一个简单的解决方案,而计算机、程序则是这种解决方案的实践。

可以解决一切的理论加上可以实现一切的实践,对,就是上帝。

他甚至(这是为了节目效果的夸张说法==)可以制造生命(人工智能)。

下面是分割线
·=================================================·

扯远了回归正题,来,数学之美第四章:

第三章中说可以使用统计语言模型进行自然语言处理,而自然语言模型建立在词的基础上。在英语等语言中,每个词中间都有间隔,而在中文、日文等语言中,一句话由很多词语组成,但并不存在明显的分隔符。因此对这种语言进行基于统计语言模型的自然语言处理,就需要进行分词。

例:
中国航天官员应邀到美国与太空总署官员开会。
中国/航天/官员/应邀/到/美国/与/太空/总署/官员/开会。

分词最基本的思想就是“查字典”。
简单来说就是把句子从左到右扫描一遍,遇到字典里有的词就标识出来,如果遇到复合词,就按最长匹配原则(上海大学,不按上海和大学分,按最长匹配原则)。

然而当词语存在二义性时,例如:
发展中国家
按照上述规则,从左到右查字典,得到的结论是
发展/中国/家
然而实际上应该是
发展/中/国家

对于这种情况,上一章讲到的统计语言模型可以解决这个问题。

假如一个句子有三种分词方法:
A1, A2, A3, ..., Ak
B1, B2, B3, ..., Bm
C1, C2, C3, ..., Cn
分词得到的结果不同,分成的词的个数也不同。
此时问题又成了上一章中的问题,如何才能判断哪一种才是最好的。
最好的应该是保证分完词后这个句子出现的概率最大,如下所示:
P(A1, A2, A3, ..., Ak) > P(B1, B2, B3, ..., Bm)
并且
P(A1, A2, A3, ..., Ak) > P(C1, C2, C3, ..., Cn)
概率最大的就是最好的分词方法。

最后,本章提到了两点:

  • 分词技术已经成熟,提升空间微乎其微
  • 如今手写输入英文越来越流行,手写输入的英文单词之间的间隔并不如机器打印的这么明显,因此也需要分词技术。

在延伸阅读中,提到了关于分词的粒度的问题。
例如词语‘清华大学’,有些人认为分到清华大学这个层次恰到好处,因为他可以说是一个专有名词;而另一些人认为要分成清华和大学,他们说清华是用来修饰大学的,要是不拆开,无法体现他们的修饰关系。
现实的情况是,我们需要针对不同的应用,进行不同层次的分词。
在机器翻译中,粒度大的分词效果更好,而在网页搜索中,粒度小的效果更好。

支持不同粒度的分词器模型:

字串 --》基本词表(例如清华,大学) + 统计语言模型L1 --》基本词串
基本词串--》复合词表(例如清华大学) + 统计语言模型L2 --》复合词串

相关文章

  • 数学之美在google中文黑板报的原文

    数学之美 系列一 -- 统计语言模型 数学之美 系列二 -- 谈谈中文分词 数学之美 系列三 -- 隐含马尔可夫模...

  • 数学之美--谈谈分词

    保留初心,砥砺前行 看完了《数学之美》第三章才想起来做一些记录会有更好的效果。 所以从第四章开始也不晚,况且前两章...

  • 《数学之美》之谈谈分词

    如果 简书可以插入音乐 我一定 放个十首八首 因为 听歌看书码字实在太**high了 //:用假诗体开个玩笑~~~...

  • 计算机如何进行中文分词

    阅读《数学之美》已经三天,今天看到第四章“谈谈分词”。静静的夜里,回顾一下白天的收获。 中文分词, 问题起因,中文...

  • 数学之美-第四章-谈谈分词

    主体讲述的是中文分词方法的演变历史,由于一些亚洲语言词与词之间没有明确的分界符,因此需要先进分词处理。这也是中文的...

  • 《数学之美》统计语言模型、分词

    语言模型 基于规则的模型 基于概率的模型 统计语言模型 问题:整个句子的概率:为了保证句子通顺,不出现歧义,计算整...

  • UE4 等边三角形

    数学之美

  • 05信息论

    信息熵——参看《数学之美》 第6章 86 最大熵——参看《数学之美》 第20章202

  • 自然语言处理(NLP)相关

    ヾ(◍°∇°◍)ノ゙-参考 结巴分词使用 中文分词之结巴分词~~~附使用场景+demo(net) jieba分词、...

  • 数学之美,AI之始(下)

    数学之美,AI(人工智能)之始(上) 数学之美,AI之始(中) 人工智能之隐忧有哪些? 隐私安全,数据歧视和...

网友评论

  • 蜻蜓二号:无意冒犯,你的那个等式,即使是约等于也不一定成立,图灵的停机问题何解??
    蜻蜓二号: @加勒比海鲜 @加勒比海鲜 首先,那个观点我非常赞同。接近万能,的确如此。注意到你的回复中使用了““最”接近”,“任何”,“万能”等看似和你最后一句对“绝对”的看法自相矛盾的词汇。使用等号来表达最接近这一概念,恕我不能认同。绝对的概念在现实中可能没有,但在数学中,除去不可证公理不说(暂且忽略他),已经证明过的结论如果不是绝对的正确或者错误,那我也不知道数学应该是怎样尴尬的一个存在。顺带一提,本人一般不信教,所以对于你那个宗教问题,我不知道。如果非要信一个宗教的话,我的答案是“飞天面条神教”。😜
    加勒比海鲜王:好吧,我还是想认真回答一下。你既然说约等于也不一定成立的意思是你认为有更接近上帝的东西?如果你信奉这种宗教信仰的话,那我道歉,是我说错了。如果你不是,请向下看,首先,任何科学不是一开始就摆在眼前的,都要有一个探索的过程,其次,耶稣被犹大出卖何解?我的意思是他们的结合是最接近万能的东西,近代的发展已经证实过这一点。例如这篇分词中说的关于分词的方法,任何人的第一反应都是要从语法的角度来做这件事,可以几十年过去毫无进展,最后被数学解决。对于这个问题不要钻牛角尖,没有什么绝对的事情。

本文标题:数学之美--谈谈分词

本文链接:https://www.haomeiwen.com/subject/iyjlqxtx.html