读吴军 |《数学之美》2:从规则到统计

作者: SharkRonnie | 来源:发表于2019-04-07 21:40 被阅读0次

吴军

吴军老师是人工智能、语音识别和互联网搜索领域的专家，在《数学之美》中吴老师讲述了数学在互联网技术和人工智能中的应用。

虽然吴老师的写作能力很强、书的可读性很高，但对于一个学文的、还是个学艺术的人来说，理解起来还是有一定难度的，总是需要反复读几遍才能理解大概。

不过，我并不从事这一行业，未来也没有这方面的打算，能够理解大概、扩展一下自己对世界的认知已经足够了。

今天的题目是「从规则到统计」，主角是「自然语言处理」，它是计算机科学领域与人工智能领域的一个重要方向，现在我们生活中的很多方面都可以接触到它的应用，比如说Siri、智能音响、网络翻译等，都是自然语言处理在应用层的体现。

1、语言的数学本质

之前在文中讲到，语言的出现是为了人类之间的通信。

字母、文字和数学实际上是信息编码的不同单位，任何一种语言都是一种编码的方式，而语言的语法规则是编解码的算法。

我们把一个要表达的意思用一句话说出来，就是用这种语言的编码方式对头脑中的信息做了一次编码，编码的结果就是一串文字。只要对方懂得这门语言，他就可以利用这门语言的解码方法获得这串文字中的信息。

这就是语言的数学本质。

2、早期的鸟飞派

对科技多少有点兴趣的人，对“鸟飞派”这个词应该不陌生，在人类想要飞上蓝天的早期，人们期望通过模仿鸟的飞翔来制造飞机，始终未能如愿，直到乔治·凯利提出空气动力学才迎来了转机。

研究自然语言处理的早期科学家，也经历了类似鸟飞派的弯路，它们试图让计算机通过模仿人的大脑来理解自然语言的含义，结果导致从上世纪50年代到70年代的研究成果几乎为零。

人类学习一门语言靠的语法规则，而真正理解一句话的意思，常常要考虑上下文的意思和常识，而人类的语法规则众多，再加上语言的多义性，这样通过概括文法规则让计算机学会自然语言处理就变的很困难。

总之，计算机通过文法规则只能分析没有上下文的简单句子，否则计算的计算量会大的惊人，而且并不能保证语义的准确。

3、从规则到统计

1970年以后统计语言学的出现让自然语言处理发生了转机，推动这个技术转变的关键人物是弗里德里克·贾里尼克和他领导的IBM华生实验室。

上世纪70年代，贾里尼克为了解决语音识别的问题，用一个简单的统计模型解决了这个问题，他的出发点很简单：一个句子是否合理，不需要再分析语法和语义了，只看它的可能性大小就可以了。

这样，自然语言分析就变成了一个简单的数学问题，一个统计模型——统计语言模型。

关于统计语言模型，我们下回分析……

（未完待续……）

祝春安。

网友评论

本文标题：读吴军 |《数学之美》2:从规则到统计

本文链接：https://www.haomeiwen.com/subject/mxpeiqtx.html

读吴军 |《数学之美》2:从规则到统计