数理统计学充分佐证：《红楼梦》后40回并非曹雪芹所著！

作者: 劳者自歌 | 来源:发表于2018-03-23 18:14 被阅读0次

自《红楼梦》问世200多年以来，学术界一直在争论后40回的作者是谁，也有一部分观点认为，后40回与前40回是都是曹雪芹所著。

今天我们就采用数理统计的方法，证明后40回与前80回非一人所著。这种数学上的证明，我们主要依据的是几个公认的前提。

第1个前提：

中文是一个超稳定的文字结构系统。这已是语言文字界的共识，也是老百性的共识。中文在秦朝至今的二千多年的时间内，保持着绝无仅有的稳定状态，这在全世界是独一无二的。因此，我们能比较容易读懂《诗经》中优美的诗句，稍具古文功底，也能读懂二千多年前的《史记》。这是我们中国人文化上独得天眷的一个重要方面。全世界独此一家，别无分店。因此，我们中国人没有理由不继承好自己数千年来的传统文化的精髓。

写几行C++代码，统计《史记》，便得到不同长度的句子出现的频率表：

句子长度出现频率

可以看出，长度为4的句子，是频率最高的。四字成语，也是我们的常用词。将上面的表格，转为下面的折线图，可以看得更为清晰。

《史记》中，句子长度与出现频率的折线图

从折线图可以看出，频率表现为一个山尖形。而4字句，其频率异乎寻常地高。

再对比一下《史记》与《明史》这二本相距约1800年的史籍，可以感觉出中文的结构稳定性。

《史记》与《明史》的等幅度频率折线对比：表现高度一致

从这个折线对比中，我们还可以推断出：著《明史》者，一定对于《史记》烂熟于心，否则，他写出来的《明史》，其用词的方式，不可能与《史记》如同一辙！

大家应当直观地看出，我们的中文是何等的稳定了。

第2个前提：

每一个时代、每一个人，其遣词造句、写作风格，实词、虚词的使用手法，必定带有极其明显的时代印记、地域特征个人烙印。这就象每个人说话，都带有固定的习惯、口头语是一样的道理。落实到文字上，就形成了文风。

第3个前提：

每个人说话，气息不同、语气不同、性格不同，带来的直接结果就是：文章断句后，其句子的长短、出现的频率，有极其强烈的个人特征。

有了前面的几个前提和折线对比，相信大家对于中文的特性有了更深的认识了。

下面来看看《红楼梦》，简单的C++编程，我们便得到了《红楼梦》句长与频率的表格。

将上面的表格转格为句长、出现频率的折线图，如下。

《红楼梦》前、中、后40回的句长、出现频率折线图

这个图中间的兰色折线，是1－40回的表现，而最上面的黄线，则是41回－80回的表现，他们的共同之处是，4字句的频率，只表现为一个尖峰。而最下面红色的第3条折线，是《红楼梦》最后40回，其拆线表现有着明显的不同：是一个典型的M形，且有2个尖峰，也就是长度为4和6的句子，频率相差不大。

再来看看《红楼梦》前、中、后40回的所有句子的平均句长，他们分别是：5.92，6.07，6.32，后40也明显高于前80回。

句子长度的频率与平均句长这二点的明显不同，就充分说明，后40回的作者，绝非曹雪芹！数学上，我们要用到"置信区间"这个概念，并且得到的结论是：后40回的作者与前80回是同一个完全是小概率事件。

限于篇幅，未详细叙述另一些细节，比如，要判断两篇文章、小说、论文的相似性，需要用到大量的算法，比如聚类算法、关联分析、描述统计等等。其中的许多算法，也是大数据分析、云计算中，常常用到的。

数理统计学应用于语言文字方面，我们得到了许多引人入胜的结果，待我以后一一奉献于大家。当然，一家之言，未必正确，尚乞海内贤明不吝教之。

18.3.18 智有不明，首发于今日头条

网友评论

本文标题：数理统计学充分佐证：《红楼梦》后40回并非曹雪芹所著！

本文链接：https://www.haomeiwen.com/subject/ckgxcftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

数理统计学充分佐证：《红楼梦》后40回并非曹雪芹所著！

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读