自《红楼梦》问世200多年以来,学术界一直在争论后40回的作者是谁,也有一部分观点认为,后40回与前40回是都是曹雪芹所著。
今天我们就采用数理统计的方法,证明后40回与前80回非一人所著。这种数学上的证明,我们主要依据的是几个公认的前提。
第1个前提:
中文是一个超稳定的文字结构系统。这已是语言文字界的共识,也是老百性的共识。中文在秦朝至今的二千多年的时间内,保持着绝无仅有的稳定状态,这在全世界是独一无二的。因此,我们能比较容易读懂《诗经》中优美的诗句,稍具古文功底,也能读懂二千多年前的《史记》。这是我们中国人文化上独得天眷的一个重要方面。全世界独此一家,别无分店。因此,我们中国人没有理由不继承好自己数千年来的传统文化的精髓。
写几行C++代码,统计《史记》,便得到不同长度的句子出现的频率表:
句子长度出现频率可以看出,长度为4的句子,是频率最高的。四字成语,也是我们的常用词。将上面的表格,转为下面的折线图,可以看得更为清晰。
《史记》中,句子长度与出现频率的折线图从折线图可以看出,频率表现为一个山尖形。而4字句,其频率异乎寻常地高。
再对比一下《史记》与《明史》这二本相距约1800年的史籍,可以感觉出中文的结构稳定性。
《史记》与《明史》的等幅度频率折线对比:表现高度一致从这个折线对比中,我们还可以推断出:著《明史》者,一定对于《史记》烂熟于心,否则,他写出来的《明史》,其用词的方式,不可能与《史记》如同一辙!
大家应当直观地看出,我们的中文是何等的稳定了。
第2个前提:
每一个时代、每一个人,其遣词造句、写作风格,实词、虚词的使用手法,必定带有极其明显的时代印记、地域特征个人烙印。这就象每个人说话,都带有固定的习惯、口头语是一样的道理。落实到文字上,就形成了文风。
第3个前提:
每个人说话,气息不同、语气不同、性格不同,带来的直接结果就是:文章断句后,其句子的长短、出现的频率,有极其强烈的个人特征。
有了前面的几个前提和折线对比,相信大家对于中文的特性有了更深的认识了。
下面来看看《红楼梦》,简单的C++编程,我们便得到了《红楼梦》句长与频率的表格。
将上面的表格转格为句长、出现频率的折线图,如下。
《红楼梦》前、中、后40回的句长、出现频率折线图这个图中间的兰色折线,是1-40回的表现,而最上面的黄线,则是41回-80回的表现,他们的共同之处是,4字句的频率,只表现为一个尖峰。而最下面红色的第3条折线,是《红楼梦》最后40回,其拆线表现有着明显的不同:是一个典型的M形,且有2个尖峰,也就是长度为4和6的句子,频率相差不大。
再来看看《红楼梦》前、中、后40回的所有句子的平均句长,他们分别是:5.92,6.07,6.32,后40也明显高于前80回。
句子长度的频率与平均句长这二点的明显不同,就充分说明,后40回的作者,绝非曹雪芹!数学上,我们要用到"置信区间"这个概念,并且得到的结论是:后40回的作者与前80回是同一个完全是小概率事件。
限于篇幅,未详细叙述另一些细节,比如,要判断两篇文章、小说、论文的相似性,需要用到大量的算法,比如聚类算法、关联分析、描述统计等等。其中的许多算法,也是大数据分析、云计算中,常常用到的。
数理统计学应用于语言文字方面,我们得到了许多引人入胜的结果,待我以后一一奉献于大家。当然,一家之言,未必正确,尚乞海内贤明不吝教之。
18.3.18 智有不明, 首发于今日头条
网友评论