一篇文章重新认识数学

作者: 更好时代 | 来源:发表于2019-01-09 08:59 被阅读2次

    ©文章由「更好时代」原创发布,保留所有权,全网违反相关法律的抄袭行为将受到更好时代专业法律团队相应的严重法律追责。

    我们每天生活中都离不开手机和电脑,其实本质上都是各种计算机,想让它们辅助我们的生活和工作,就必须让它们处理人类的文字和语言,而计算机处理这些数据的背后原理都是数学。

    在很久以前,人们就已经试着用数字来解决文字校验的问题了:抄写《圣经》的时候面临一个问题,那就是不在抄写的过程中出错,这本来是一个难题。

    为了解决这个难题,从判断一个句子出现的可能性多大入手,这需要用到「马尔科夫假设」,也就是一个句子中词语出现的频率,只和前一个词语有关,比如「涨停」这个词语最有可能跟在「股票」这个词语的后面。

    所以只要给计算机足够大的机读文本,计算机就能算出来一个特定词后面出现某个词的频率,这样将一句话中所有词语出现的频率相乘,那就是这个句子出现的概率,概率最大的句子,就是有可能出现的正确句子。

    一个用几万条复杂语法解决不了的问题,用数学工具就轻松地解决了,而且效果还很好。

    还有很多人喜欢新闻网站上的分类标签,将新闻分类的原理也是数学,而这恰恰是简单的余弦定理,一篇新闻中的语气词通常对新闻的分类没有太大意义,而「股票」或者「利息」这样的实词,才是判断新闻分类的重点词。

    科学家们精选了一个词汇表,里面收录了64000个词语,每个词语对应着一个编号,他们将大量文字输入计算机,算出每个词语出现的次数。

    一般出现次数越少的词就越有搜索价值,根据不同词的价值将64000个词算出各自的权重,然后再往计算机中输入要分类的新闻,计算出这64000个词语在这个篇新闻中的分布。

    如果某些词语没有出现,对应值则为零,64000个词语的频率,就构成了一个64000维的向量,然后用这个向量来代表这个篇新闻,这就叫做这篇新闻的特征向量。

    不同类型新闻用词上不同的特点,所以只要算出不同新闻特征之间的夹角大小,就可以判断新闻类型了,一个简单的余弦定理,解决了一个分类难题。

    和经验相比,数学能够帮助我们找到一个正确的数学模型,只有正确的数学模型,才能把一个大问题的计算复杂度降低,让它变得简单,而经验得出来的模型常常是错的。

    比如古人认为天上的星星不论是太阳、月亮还是太阳系其他几大行星,都以为是围绕地球旋转,这就是错误的「地心说」,但实际上除了月亮其他的星体均不是围绕地球转圈。

    为了给星体找到一个符合观测经验的运动规律古代科学家找了很多方法,有个理论用到了40到60个圆形,大圆里面套着小圆。但这很复杂,即使用了最高端的计算机都很难解出40个套在一起的圆方程。

    后来就是哥白尼提出了日心说,一个椭圆方程就搞定了,这个数学模型还解决了行星围绕恒星运转的开普勒三定律,将星体的运动规律解释得明明白白。

    数学能帮助我们发现仅凭经验无法发现的规律,找到仅凭经验无法总结出来的办法,所以没有数学,就不可能拥有今天的世界观和生活方式。

    数学公式、数学计算、数学推导过程可能实际应用起来很复杂,这是数学难学的原因,但是数学应用背后包含的数学思想,却总是特别简单。

    计算机的原理就是一个例子,计算机很复杂,由大量的精密电路搭建而成,但是计算机的基本算法却很简单,本质上的逻辑运算来自布尔代数。

    布尔代数的运算元素只有0和1两个数字,基本运算也只有三种,「与」and「或」or以及「非」not,这就是数字电路的基础,所有的数学和逻辑运算,都是转化为布尔代数的基本运算,正是靠着这样的基础,人们才用布尔代数原理为基础的电路,搭建起了现代计算机。

    在现实生活中,真正能够通用的工具,在形式上一定是最简单的,「简单之美」说起来容易,但是做起来很难。

    -完-

    相关文章

      网友评论

        本文标题:一篇文章重新认识数学

        本文链接:https://www.haomeiwen.com/subject/wpqwrqtx.html