用大数据研究文学的发现

作者:三联生活周刊

用大数据研究文学的发现0文/茸成

一个学数学的人可以热爱文学,但也许他只是刚好拥有这两种不同的爱好而已,就如同一个学物理的同时也喜欢听摇滚。华师大数学系教授周克希后来转行去做翻译,他就说,翻译和数学并没有多少关系。但华师大中文系教授陈大康本科学的是数学,他上世纪80年代起就用数学研究文学,发表了《人物性格的数学抽象与定量分析》《从数理语言学看〈红楼梦〉后40回的作者》等文章。毕业于哈佛大学应用数学专业的美国记者本·布拉特用大数学分析了众多经典文学名著和畅销书,他说:“在任何一个领域,如果拥有数十万个数据点,那么对这些信息进行挖掘一定有助于研究人的行为和心理。我相信,挖掘文学同样是有效的。”

布拉特统计了作家们最喜欢用的词,因为“作家最喜欢的词能反映他们作品的独特语气或主题”。他的分析结果和我们对作家的印象确实比较吻合,比如华裔作家谭恩美最喜欢的词是“葫芦”“花生”和“面条”,简·奥斯丁最喜欢的词是“礼貌”“幻想”和“轻率”,爱喝酒的海明威最喜欢的词里有“干邑”,J.K.罗琳最喜欢的词是“魔杖”“巫师”和“魔药”,纳博科夫最喜欢的词依次是“淡紫色”“平庸的”和“双关语”。

比较让人感到意外的是作家使用陈词滥调的情况,使用陈词滥调最多的作家除了畅销书作家詹姆斯·帕特森、史蒂芬·金,居然还有作品难懂的詹姆斯·乔伊斯,使用陈词滥调最少的作家是简·奥斯丁、伊迪丝·沃顿、伍尔夫、福克纳等。

我儿子从二年级开始,语文课上有写话练习,他的开头总是,“一天,天气晴朗……”看了本拉特的分析,我也就释然了,他说:“尽管饱受诟病,老套的天气开头仍然是许多作者的备用手法。比如奥威尔《1984》里那句被认为是有史以来最伟大的开篇之一:‘四月寒冷晴朗的一天,钟敲了十三下。’用天气开篇不一定糟糕,尤其是奥威尔这样的开头,足以挑起读者的期待。即使在最受推崇的作品中,天气仍然是一个常见的开篇模式,在86部普利策奖获奖作品中,有13部用天气开头。”

有人批评说,用数据分析搞文学研究,就像是通过计算建筑物正面的墙上用了多少块砖来搞建筑评论。布拉特也承认:“分析数字进行计算,可以帮助我们阅读和发现其中的模式,但不能告诉我们该在什么时候打破模式。”搞清楚画家用的各种颜料的比例、作曲家用了哪些音符,并不能解释哪些作品就成了名作。但统计数据给出的一些结果会纠正我们对文学一些错误的直觉,比如有的作家说要少用副词,其实他本人并没做到;作品要简洁,但作者走红后,常常会越写越长。 读书文学作家生活圆桌数学文化