在研究生阶段的前一个月,读了两本书,一本是《大数据时代下的统计学》另一本是吴军的《数学之美》。首先感谢这个阶段的老师让我读到了这两本书。第一本已经看完,主要是讲的关于统计学一些基本的知识,基本上用嘴通俗化的语言要介绍有关统计学的知识。第二本对我来说真的是获益匪浅,这时候,有点想读完吴军博士的《浪潮之巅》。《数学之美》这本书有很多计算机以及算法的知识,我简单地浏览了其中大部分的章节,感谢本科的时候自己有在期末考试前认真地钻研过《模式识别》这本书,不然真的很多东西完全不知所云,现在意识到之前学习的《运筹学》《线性代数》等一切基础学科,到后面理解更深层次的东西有多大的影响。第一遍只能懂得百分之六十。现在想在这里,整理整理,也算是一个重新记忆的过程。在一个不占内存,也没多少熟人知道的地方。哈哈哈!
目前的摘录(自己的语言):
数字、文字和自然语言一样都是信息的载体。语言和数学的产生都是为了同一个目的,记录和传播信息。是香农博士提出的信息论,将数字和信息系统联系起来。
翻译这件事之所以能够发成,仅仅是因为不同的文字系统在记录信息上的能力是等价的。文字只是信息的载体,而非信息本身。古埃及人最早是用图形表示事物,就是最早的象形文字。《亚妮的死者之书》就是一轴绘在纸莎草纸上长达20多米的长卷,完整了记录了当年的文明。
1822年,法国语言学家商博良破解了罗塞塔石碑上的古埃及象形文字。该石碑的破译让我们了解了整个埃及从公园前32世纪(早期王朝时代)至今的历史。至今,我们对5000年前埃及的了解远远超过对1000年前的玛雅文明,源于埃及人成功的记录了他们生活中的重要信息。从这个历史的角度,吴军博士有两点指导意义:
①信息的冗余是信息安全的保障(罗赛塔碑上的内容是同意信息重复三次,因此才可以完整的保留下来)
②语言的数据。称之为语料,尤其是双语或者多语言的对照语料对翻译至关重要,它是从事机器翻译研究的基础。
了解了罗塞塔石碑的历史,对于今天很多翻译软件和服务都叫作“罗塞塔”就不会觉得奇怪了。
早期数字并没有书写的形式,而是掰指头,这就是今天使用十进制的原因。当然也并不是所有的问题名都是采用十进制,玛雅文明采用的是二十进制。玛雅人的一个世纪,他们称之为的是太阳纪。
描述数字不同的国家有不同的计数方法,中国人用的是个十百千万亿兆,解码的规则是乘法,200万可以写成2*100*10000,罗马人用I代表1,V代表5,X代表10...,解码规则是加法,小数字在大数字的左边为减,在大数字的右边是加,IV表示5-1,VI表示5+1。古印度人的做法是最有效的,发明了包括0在内的10个阿拉伯数字,也就是今天通用的数字,它们由阿拉伯人传入欧洲,马上得到普及。
在文字的发展进程中,人类第二个文明的中心在两河流域的美索不达米建立的时候,一种新的文字,楔形文字诞生了。这些文字就是拼音文字,是这个星球上最古老的拼音文字,每个形状不同的楔子实际上是一个不同的字母。从象形文字到拼音文字是一个飞跃,因为人类在描述物体的方式上,从物体的外表进化到了抽象的概念,同时不自觉地采用了对信息的编码。编码的原则也非常合理,常用的字短,生僻字长。在通信时,如果信道比较宽,信息就不必压缩,如果信道很窄,信息在传递前需要尽可能的压缩,与古代在纸张没有发明之前,由于刻字时间长,所以古文就非常的简短这一做法如出一辙。
犹太人发明了类似于我们今天计算机和通信中校验码的方法,把每一个希伯来字母对应一个数字,这样每行文字加起来便得到一个特殊的数字,这个数字便成为了这一行的校验码。同样,每一列也是如此来校验。这背后的原理也与今天的各种校验的原理是相同的。
如果说字母到词的构词法(Morphology)是词的编码规则,那么语法则是语言的编码和解码规则。
《数学之美》这本书讨论的重点,就是通信原理和信息传播的模型,(信息)编码和最短解码,解码的规则,语法。聚类,校验位,双语对照文本,语料库和及其翻译,多义性和利用上下文消除歧义性。他们过去遵循的法则和我们今天探讨的研究方法背后有着共同的东西,就是数学规律。
网友评论