早两年读过吴军的浪潮之巅,讲了美国硅谷科技企业的兴衰成败,企业诞生之初所带的基因特性决定了在这高速变化时代中所能成就的高度与对环境变迁的无奈。很是佩服吴军将知识和道理揉在故事中娓娓道来的本事与细腻而磅礴的文笔,这都是我望尘莫及的。这次花了两周时间,陆续看完这本数学之美,又让我再次对他涌起无比敬仰之情。
![](https://img.haomeiwen.com/i6362040/61b3bb983c49c63b.jpg)
这本书把数学在IT领域,特别是语音识别和搜索引擎方面的美丽之处,予以了精彩的表达。但是对于我而言,更加欣赏的是他在这本书中所要表达的“道”。技术分为术和道两种,具体做事的方法是术,做事的原理和原则是道。很多具体的技术会从独门绝技到普及,再到落伍。追求术的人一辈子工作都很辛苦,只有掌握了道才能永远游刃有余。工作多年后我才渐渐意识到道的作用,一直想寻找那些不容易变化的原则,正如现在所热门的第一性原理。
回到这本书,纷繁复杂的技术实现的背后都有一个数学原理基础。伽利略曾经说过,数学是上帝描写的自然语言。爱因斯坦也曾说过,纯数学使我们能够发现概念和联系这些概念的规律,这些概念和规律,给了我们理解自然现象的钥匙。数学就是自然科学最基础的道,当然也包括IT世界的道。IT的基础是信息论,信息论的基础则是数学。
在本书19章吴军总结了一些数学模型应用的经验:
1,一个正确的数学模型应当在形式上是简单的。
2,一个正确的模型一开始可能还不如一个精雕细琢过的错误模型来的正确,但是如果认定大方向是对的,就应该坚持下去。
3,大量准确的数据对研发很重要。
4,正确的模型也可能受噪音干扰而显得不准确。这时候应该找到噪音的根源,往往能通往重大发现。
以下记录一些实际应用场景
通信模型
文字语言都是为了信息的传播,都符合通信的基本原则。由信息源头发的信息经过编码,通过信道进行传递,再经过解码,接收者获得信息。语言和文字都是将大脑中的信息通过语言或文字的方式进行编码,再由声音或书籍的方式进行传播,接收者听到看到再进行解码,得到语言文字中所要表达的信息。在通讯时,如果送到交款信息,不必压缩就可以传递,如果信道窄信息在传递前就要尽可能的压缩,然后在接收端进行解压缩。所以古时候文言文就是尽量简洁减少书写的困难。
统计语言模型
统计语言模型的原理,一个句子是否合理,就看看他的可能性大小,可能性就可以用概率来衡量。利用这个原理,在大量数据中计算文字间上下文概率,这样就可以对自然语言进行处理。
信息熵
信息是消除系统不确定性的唯一方法,在没有获得任何信息前,一个系统就像是一个黑盒子,引入信息,就可以了解黑盒子系统的内部结构。如果没有心情的公司或者数字的游戏,都无法排除不确定性。
布尔运算与索引
将每个关键词在网页中出现的结果进行索引记录,搜索时候,关键词和这些索引进行布尔运算而迅速得出结果。索引通过分布式的方式存储到不同的服务器上。根据网页的序号将索引分成多份,分别装在不同的服务器中,每当接受一个查询词,这个查询被分发到许多的服务器中,这些服务器同时并行处理用户请求,并把结果送到主服务器进行合并处理,最终结果返回给用户。
图论和爬虫
整个网络世界相当于一个大图,网络中的每一个页面,相当于其中的一个节点,链接相当于节点间的弧。遍历图中的每一个节点可以使用广度优先搜索bfs和深度优先搜索dfs策略。爬虫就是遍历网络中的所有节点得到网络中的所有页面信息。而一个网站一般都是首页比较重要,所以一般爬虫优先使用广度优先策略。具体实现的时候会有一个服务器进行调度,判断每个节点的链接地址是否被下载过,如果说没有被下载,就安排爬虫进行爬取,查询后将页面链接放到hash表中,方便下次判断。
pagerank与网页排名
在互联网上,如果一个网页被其他和许多页面所链接,那么说明它受到普遍的承认和信赖,那么它的排名就高,这好比是现实生活中的投票,链接越多,他的票数就越高。pagerank的高明之处,在于它把整个互联网当作一个整体来对待,这符合系统论的观点。以前的信息检索大多把每一个网页当作独立的个体对待,大部分人只注意了网页内容和查询语句的相关性,所有的网页之间的关系。
有限状态机与地址解析
利用有限状态机对有规则文法进行解析。每一个有限状态机都有一个开始和终止状态,以及若干个中间状态,每一条弧带有从一个状态,进入下一个状态的条件。比如省下面可有市和区,市区下面可有街道,街道下面可以门牌号。
余玄定理与新闻分类
关键词在网页中出现的频率越大,那么这个网页和关键词的关系就越紧密,这个相关性用tf-idf进行表示。根据这tfidf值,可以知道每个网页中与各个单词之间的关系程度。如果单词表的某个词在新闻中没有出现,那么对应的值为零,如果出现多次那么关系紧密。利用余弦定理计算网页与这个关键词的相关性,得到网页特征向量,如果两个网页特征向量相类似,那么这两个网页很可能属于同一类。
网友评论