一直认为文学是没有标准答案的,数学唯一无法分析的就是文学。因为文字的含义,作品里所包含的情感都是无法用数字来量化的。
然后,读完这本书,我才了解到,原来可以用统计学的方法可以在另外一个方面来分析写作:用大数据来探究出写作的黄金法则。
1、文学作品的“指纹”
《联邦党人文集》为美国走向民主打下了基础,然而,在其中有12篇文章的作者一直不明。历史学家们为此争论了150多年之久。麦迪逊喝汉密尔顿都曾站出来认领这12篇文章,真相到底是什么呢,一直是个未解之谜。
在两个世纪后,问题最终得以解决。两位统计学教授给出了明确的答案。他们在研究结果里发现,在《联邦党人文集》里麦迪逊的文章超过一半使用了“whilst”这个词,但从未用过“while”。相反,汉密尔顿大约三分之一的文章中使用了“while”,但从未用过“whilst”。
当然他们并不是只依靠一个词的分析,那样在统计学上来讲也是不充分的,他们系统甄选出几十个基本单词,发现两位不同的作者的使用频率有明显的不同。最终确定,这12篇文章的作者是麦迪逊。
数学方法揭开了横跨两个世纪的谜团。可见,不同的作者有不同的用词习惯,就像指纹一样,每个人的写作风格都是独一无二的,而这些是可以依靠数学方法分析出来的。
2、越简单、越经典
利用统计学方法不仅可以证明文章的作者是谁,还可以区分出作者的性别,男性较多使用关于事物的“信息性”语言,女性较多使用人际间的“关系性”语言。
统计学方法还可以区别出不同国家的文化风俗和喜好。
最让我感兴趣的是,统计学家发现,用词越少,越容易成为经典。
苏斯博士职业生涯里第二畅销的作品《戴帽子的猫》用了220个不同的单词,而他最畅销的《绿鸡蛋和火腿》里只用了50个词。
统计学家们设计了一个公式可以用来测试任何文本的阅读难易度。他们发现近些年来《纽约时报》的畅销书阅读难度普遍较低。这表明畅销书里更简单的句子和单音节词越来越多,也是由于《纽约时报》的畅销书排行榜变“笨”了。不管怎样,这代表了现在的趋势,
3、大数据给我们的写作之路那些启发
我觉得每一个写作的人都应该读一读这本书,在宏观的角度上了解一下数学方法在文学领域能让我们了解到什么。
我们应该给自己一个清晰的定位并据此做出规划。特别是那种写作目的不是很明确却又渴望成功的人,不妨从中发现写作的“捷径”。
然而我本人更提倡,写出自己的风格,希望有天也能够有足够优秀的作品来被别人拿来分析。
网友评论