摘录
第一章:文字和语言 VS 数字和信息
通信的原理和信息传播的模型、(信源)编码和最短编码、解码的规则,语法、聚类、校验位、双鱼对照文本,语料库和机器翻译、多义性和利用上下文消除歧义,这些今天自然语言处理学者们研究的问题,我们的祖先在设计语言的时候其实已经遇到了,并且用类似今天的方法解决了,虽然他们的认识多是自发的,而不是自觉地。他们过去遵循的法则和我们今天探求的研究方法背后有着共同的东西,这就是数学规律。
第二章:自然语言处理——从规则到统计
基于统计的自然语言处理方法,在数学模型上和通信是相通的,甚至就是相同的。因此,在数学意义上自然语言处理又和语言的初衷——通信联系在一起了。但是,科学家们认识到这个联系却花了几十年的时间。
第三章:统计语言模型
马尔可夫模型:假设任意一个词Wi出现的概率直通它前面的N个词Wi-1、Wi-2、。。。Wi-n有关。(N从1到2,从2到3对模型都有显著的提升,当从3到4提升不再明显)
统计语言模型在形式上非常简单,任何人都很容易理解。但是里面的学问却可以很深,一个专家可以在这方面研究很多年,比如我们在延伸阅读中提到的那些问题。数学的魅力就在于将复杂的问题简单化。
第四章:谈谈中文分词
中文分词以统计语言模型为基础,经过几十年的发展和完善,今天基本上可以看做是一个已经解决的问题。当然不同的人做的分词器有好有坏,这里面的差别主要在数据的使用和工程实现的精度。
第五章:隐含马尔可夫模型
隐含马尔可夫模型最初应用于通信领域,继而推广到语音和语言处理中,成为连接自然语言处理和通信的桥梁。同事,隐含马尔可夫模型也是极其学习主要工具之一。和几乎所有的极其学习的模型工具一样,它需要一个训练算法(Baum-Welch算法)和使用时的解码算法(维特比算法),掌握了这两类算法,就基本上可以使用隐含马尔可夫模型这个工具了。
第六章:信息的度量和作用
信息熵不仅是对信息的量化度量,而且是整个信息论的基础。它对于通信、数据压缩、自然语言处理都有很强的指导意义。信息熵的物理含义是对一个信息系统不确定性的度量,在这一点上,它和热力学中熵的概念相同,因为后者是对于一个系统无序的度量。这说明科学上很多看似不同的学科之间也会有很强的相似性。
第七章:贾里尼克和现代语言处理
信息科学大师——贾里尼克
第八章:简单之美——布尔代数和搜索引擎的索引
布尔代数(1和0,and or not)非常简单,但是对数学和计算机发展的意义重大,它不仅把逻辑和数学合二为一,而且给了我们一个全新的视角看待世界,开创了今天数字化的时代。在此,让我们用伟大科学家牛顿的一句话来结束这一章,“(人民)发觉真理在形式上从来是简单的,而不是复杂和含混的。
第九章:图论和网络爬虫
图的遍历是一件很简单的事情,没有多少人会去研究这件事情,也没有多少人用得到。可是互联网的出现,图的遍历方法一下子有了用武之地。很多数学方法就是这个样子,看上去没有什么实际用途,但是随着时间的推移会一下子派上大用场。
第十章:PageRank——Google的民主表决式网页 排名技术
今天,Google 搜索引擎比最初复杂、完善了许多。但是PageRank在Google所有算法中依然是至关重要的。
第十一章:如何确定网页和查询的相关性
TF-IDF是对搜索关键字的重要性度量,从理论上讲,它有很强的理论根据。因此如果对搜索不是很精通的人,直接采用TF-IDF效果也不会太差。现在各家搜索引擎对关键词重要性的度量,都在TF-IDF的基础上有些改进和微调。但是,在原理上与TF-IDF相差不远。
第十二章:地图和本地搜索的最基本技术——有限状态机和动态规划
有限状态机和动态规则的应用非常广泛,远远不止识别地址、导航等地图服务相关领域,它们在语音识别、拼写和语法纠错、拼音输入法、工业控制和生物的序列分析等领域都有着极其重要的应用。其在拼音输入法中也有重大作用
第十三章:Google AK-47的设计者——Dr阿米特 辛格
介绍Dr Singhal
第十四章:余弦定理和新闻的分类
1、计算所有新闻之间两两的余弦相似性,把相似性大于一个阈值的新闻合并成一个小类。这样N篇新闻被合并成N1个小类。
2、把每个小类所有的新闻作为一个整体,计算小类的特征向量,再计算小类之间两两的余弦相似性,然后合并成大一点的小类N2. N2<N1。
第十五章:矩阵运算和文本处理中的两个分类问题
计算大量新闻时一步到位的办法是利用矩阵运算中的奇异值分解(SVD),得到粗分类结果,再利用计算向量余弦的方法,在粗分类结果的基础上,进行几次迭代,得到比较精确的结果。
第十六章:信息指纹极其应用
信息指纹可以理解成将一段信息(文字、图片、音频、视频等)随机地映射到一个多维二进制空间中的一个点(一个二进制数字)。只要这个随机函数做得好,那么不同信息对应的这些点不会重合,因此这些二进制数字就成了原来信息所具有的独一无二的指纹。
第十七章:由电视剧《暗算》所想到的——谈谈密码学的数学原理
我们在介绍信息论中谈到,利用信息可以消除一个系统的不确定性。而利用已经获得的信息情报来消除一个情报系统的不确定性就是解密。因此,密码学的最高境界就是无论地方获取多少密文,也无法消除己方情报系统的不确定性。为了达到这个目的,就不仅要做到密文之间相互无关,同时密文还是看似完全随机的序列。在信息诞生后,科学家们沿着这个思路设计出很好的密码系统,而公开秘钥是目前最常用的加密办法。
第十八章:闪光的不一定是金子——谈谈搜索引擎反作弊问题
SEO——Search Engine Optimizer 搜索引擎优化者——作弊者
第十九章:谈谈数学模型的重要性
我们对任何问题总是再找相应的准确的数学模型
第二十章:不要把鸡蛋放到同一个篮子里——谈谈最大熵模型
最大熵模型可以将各种信息整合到一个统一的模型中。它有很多良好的特性:从形式上看,它非常简单,非常优美;从效果上看,它是唯一一种可以满足各个信息源的限制条件,同事又能保证平滑性的模型。由于最大熵模型具有这些良好的特性,它的应用范围因而十分广泛。但是,最大熵模型的计算量巨大,在工程上实现方法的好坏决定了模型的实用与否。
第二十一章:拼音输入法的数学原理
汉字的输入过程本身就是人和计算机的通信,好的输入法会自觉或者不自觉地遵循通信的数学模型。当然要做出最有效的输入法,应当自觉使用信息论做指导。
第二十二章:自然语言处理的教父马库斯和他的优秀弟子们
马库斯主要弟子:柯林斯、布莱尔
第二十三章:布隆过滤器
布隆过滤器背后的数学原理在于两个完全随机的数字冲突的概率很小,因此,可以在很小的误识别率条件下,用很少的空间存储大量信息。常见的补救无识别的办法是再建立一个小的白名单,存储那些可能被误判的信息。由于布隆过滤器中只有简单的算术运算,因此它的速度很快使用方便。
第二十四章:马尔可夫链的扩展——叶贝斯网络
叶贝斯网络是一个加权的有向图,是马尔可夫链的扩展。从认识的层面看,叶贝斯网络克服了马尔可夫链那种机械的线性的约束,它可以把任何有关联的时间统一到它的框架下面。
第二十五章:条件随机场和句法分析
条件随机场是一个非常灵活的用于预测的统计模型。和最大熵模型一样,条件随机场的形式简单,但是实现复杂。
第二十六章:维特比和他的维特比算法
高通公司创始人:维特比 CDMA 3G通信技术
第二十七章:再谈文本自动分类问题——期望最大化算法
EM算法只需要有一些训练数据,定义一个最大化函数,剩下的事情就交给计算机了。
第二十八章:逻辑回归和广告搜索
逻辑回归模型是一种将影响概率的不同因素结合在一起的指数模型。和许多模型一样,都可以采用通用迭代算法GIS和改进的迭代算法IIS来实现。除了在信息处理中的应用,逻辑回归模型还广泛应用于生物统计。
第二十九章:各个击破算法和Google云计算的基础
我们现在发现Google颇为神秘的云计算中最重要的MapReduce工具,其实原理就是计算机算法中常用的“各个击破”法,它的原理原来这么简单——将复杂的大问题分解成很多小问题分别求解,然后再把小问题的解合并成原始问题的解。由此可见,在生活中大量用到的,真正有用的方法往往朴实而简单。
网友评论