文学大数据与当代文学研究范式转型

作者: 杨丹丹

中国当代文学研究范式转型是一个常谈常新的话题。从当代文学发生之日起,学术界就面临如何阐释当代文学的问题,其中就涉及文学研究的方法和范式等内容。而且,随着文学社会语境、研究对象和诉求的变化,文学研究范式转型问题也越发突出和明显,通常显现在文学研究方法论争中,通过论争确立某一历史阶段通约有效的研究方法,并在长期实践中形成主流文学研究范式。从这一角度看,当代文学研究范式转型与当代文学演进和当代文学研究史变迁紧密关联。

当代文学与古代文学、近现代文学的本质差异之一是它的“当代”属性。“当代”的繁复多变和时刻在场,使当代文学研究需要直面最新的文学现场,成为“当前文学思潮、作品和现象最‘理想’的‘批评者’”,并运用“认同式”“讨论式”批评[程光炜:《当代文学学科的“历史化”》,《文艺研究》2008年第4期。]契合当代文学的“当代性”。这预设了当代文学研究范式的不稳定,没有任何一种长久不变的研究范式能够有效应对不断新变的文学现场。这也使当代文学研究显现出强烈的危机感。当无法“对崭新的文学实践做出辨认、预判,疾言厉色或为之鼓与呼”时,[陈培浩:《“现代汉诗”与中国诗学“当代性”的生成》,《当代作家评论》2021年第3期。]势必对已有研究范式做出修正和调整,甚至进行颠覆和重构,寻找新的研究范式替代。只有如此,才能保证文学研究的有效阐释力和公信力。因此,当代文学研究本身就包含对自身转型问题的持续探索。

从中国当代文学研究史来看,大体形成了文学政治研究、文学审美研究、文学文化研究和文学社会研究几种主流研究范式。它们与特定历史语境和时代诉求密切相关。大致对应20世纪50—70年代、80年代、90年代和2000年以来几个历史阶段。每种研究范式在相应的历史阶段都具有优先于其他研究范式的阐释权且处于流转状态。这说明任何一种文学研究范式都有其边界和限度,当新的社会语境、新的文学现象出现时,必然产生新的研究范式。或者说,文学研究范式转型问题是当代文学研究史自身生发的问题,一种新的文学研究范式的形成过程也是其他文学研究范式的式微过程。可以说,“学术范式的转换和形成是一个相当复杂的过程,一方面出自社会文化转型的需要,另方面有学术本身的发展特点”。[张弘:《学术范式转型与批判意识》,《学术月刊》2003年第7期。]

因此,想辨识清楚当代文学研究范式转型问题,就需要阐明与此相关的文学新语境和新现象,以及原有文学研究范式的限度和新的文学研究范式的适用性问题。在此意义上,我们需要解释清楚文学研究在当下发生了怎样的新变化,文学研究方法和思维发生了怎样的新转变,出现了哪些新的文学研究实践路径,生产了哪些新知识等问题。

一、大数据时代与文学大数据

1980年,美国社会学家阿尔文·托夫勒在著作《第三次浪潮》中阐述了科技发展在农业社会到工业社会转型过程中起到的关键作用,并且预测电子科技进步将引发“第三次浪潮文明”:人类将由工业社会进入信息社会,“整个文明和制度、技术、文化都在变化的浪潮下日趋分裂”。[〔美〕阿尔文·托夫勒:《第三次浪潮》,第117页,黄明坚译,北京,中信出版集团,2018。]尤其是大数据技术在日常生活诸多方面的广泛应用,将推动大数据社会的形成。当下,随着互联网、物联网和社交网络的快速发展,阿尔文·托夫勒的预测开始变为现实,“根据国际权威机构Statista的统计和预测,2020年全球数据产生量预计达到47ZB,而到2035年,这一数字将达到2142ZB,全球数据量即将迎来更大规模的爆发”。[中国信息通信研究院:《大数据白皮书(2020年)》,引自http://www.ideadata.com.cn/temp/article/file/20210115/1610676847871064775.html。]

事实上,系统认识和理解大数据最先从学术界开始。《自然》《科学》《ERCIM News》等业界顶尖期刊都曾开设“大数据专辑”,对数据的维护、再利用,数据的可解释性和数据处理主体等问题进行探讨。虽然,学术界的讨论主要集中在学理层面,但都表明一个事实:大数据可能成为引领未来社会发展的支配性力量。而且,随着大数据理论的不断成熟,大数据讨论开始溢出学理层面,转而在社会实践应用维度发力,进而上升为国家发展战略。中国、美国和欧盟等国家/地区纷纷制定了大数据发展政策。中国早在2014年就将“大数据”写入政府工作报告,明确实施国家大数据战略。更为重要的是,“一场由大数据带来的技术革命”和“智能革命”[吴军:《智能时代:大数据与智能革命重新定义未来》,第40页,北京,中信出版社,2016。]开始重塑现实世界,渗入日常生活的各个角落,“从商业科技到医疗、政府、教育、经济、人文以及社会的其他各个领域”[〔英〕维克托·迈尔·舍恩伯格、〔英〕肯尼思·库克耶:《大数据时代:生活、工作与思维的大变革》,第15页,周涛译,杭州,浙江人民出版社,2012。]都有大数据的魅影。人们可以直接感受到自己生活在一个被数字编织的数据网中。那么,在大数据时代,数据技术是如何改变文学的?产生的文学大数据呈现出哪些新的特征?文学研究方法出现哪些变化?

回答上述问题的前提是首先明确“文学大数据”的概念。目前为止,学术界对“大数据”的概念仍存在较大分歧,麦肯锡、维克托·迈尔·舍恩伯格和肯尼思·库克耶等学者都曾界定过大数据,但都没有形成共识。[见孟小峰、慈祥:《大数据管理:概念、技术与挑战》,《计算机研究与发展》2013年第1期。]所以,笔者只能从现有概念中提取大数据的一些基本特征:数据规模大,数据来源、种类多,数据增长、处理速度快,数据价值密度低等。[马建光、姜巍:《大数据的概念、特征及其应用》,《国防科技》2013年第2期。]这些特征决定了大数据的“大”不仅是数据数量的大,更是指数据的复杂多变,以及通过数据获取新知识的能力。以此为标准,可以为“文学大数据”暂时确立一个相对稳固的概念:文学大数据与传统意义上的文学数据不同,不是指文学作品和文学文献电子化后产生的电子文本数据,而是指文学作品在互联网、物联网和社交网传播过程中产生的与文学相关的数据,包括日志、音频、视频、图片、弹幕、点赞等结构化、半结构化和非结构化多种类型数据。这些数据数量巨大,来源、种类多样,成碎片化分布,且处于实时更新状态,有价值和可利用的数据密度较低,需要利用计算技术分析这些数据。例如,余华的小说《文城》出版后,在微信、微博等社交媒体和豆瓣读书、京东图书等网络购书平台,以及抖音、快手等短视频媒体中迅速传播,产生了数量庞大的文学数据,包括读者截取的小说原文段落、长篇专业评论、简短的即时感受文字、表达阅读情绪的图片、讲述阅读体会的视频、购书推荐评语、销售数字表格、小说影响力排行表和小说的知识图谱等。从这些数据中可以分析出读者对小说的总体评价、专业批评家与普通读者的接受差异、读者的地理信息、小说在不同地域的文化影响力、当下社会情绪的走势、读者的审美变化和小说的未来发展趋势等内容。而且,不同类型数据之间的重组又可以产生新数据。可以说,当《文城》进入互联网和社交网被数据化之后,就不再是一部单纯的文学作品,转而成为生产文学数据及其相关新知识的载体。

文学大数据既是纸媒文学在互联网和社交网传播的结果,又是依托网络、利用数字技术生产数字化文学的产物。这些“数字文学”[单小曦:《数字文学的命名及其生产类型》,《中州学刊》2011年第6期。]在利用文学大数据的同时,又再次产生了文学大数据。人工智能文学、超文本文学、视觉文学和界面文学等“数字文学”的诞生不仅是新旧文学形态的更迭,而且是文学写作生态的全方位变革。它的“非线性叙事、非稳定结构、读者参与性以及多媒体特征被视为对传统文学理论以及文学审美的挑战”,同时,其特有的“编程功能、数字代码、计算机算法等数字文学内部运行机制被视为新美学基础和美学特征”。[李斌:《数字技术、虚拟现实与网络功能——数字文学的审美新变化与发展新趋势》,《当代外国文学》2021年第1期。]可以说,这些新的文学特性都与文学大数据紧密关联。例如,超文本文学就超越了传统语义文本的限制,把词语、地理位置和个体信息等众多主题元素按照多种组合方式重组,甚至“任何可以看见、可以听见的都可以构成文本的纹理”。[熊澄宇编:《新媒介与创新思维》,第291页,北京,清华大学出版社,2001。]而且,写作主体既可以是人,也可以是智能机器。进一步而言,超文本形成的基础是文学大数据,通过分析和管理文学大数据,把文学大数据存储在各个文字节点上。然后,在这些文字节点之间确立相关关系,再以链接的方式把各个文字节点串联起来,形成一种网状结构。同时,超文本在互联网和社交网传播过程又生产了新的文学数据,并无限循环往复。林焱的小说《白毛女在1971》就是一部典型的超文本小说,作家在文本中设置了多个链接符号,这些链接符号与故事情节叙述密切相关,读者只有阅读完这些链接网页的内容后,才能继续阅读小说剩余的内容。[范玉刚:《网络文学:生成于文学与技术之间》,《文学评论》2008年第2期。]

对当代文学研究而言,面对文学大数据及新的文学样态,需要认真思考如何调整和重塑文学研究方法,与此新变相契合,进而建构新的研究范式。因此,“如何在设计算法、挖掘工具、可视化工具及存档技术时凸显价值、解释和意义变得更加重要”。[〔美〕安妮·伯迪克等:《数字人文:改变知识创新与分享的游戏规划》,第43页,马林青、韩若画译,北京,中国人民大学出版社,2018。]

二、文学数据研究中“小数据”与“大数据”

为了应对文学的数字化和数据化,文学研究引入了“计算”方法,把信息技术和计算机技术应用到文学研究。文学计算的两大核心是:文学数据和计算技术。尤其是计算技术至关重要,它决定了文学数据研究的上限。因为,文学数据研究“具有高度技术化的内涵与本质,它必须依托数字系统建设、程序代码编写或者其他手段来实现研究过程或呈现研究结果”。[〔英〕大卫·M.贝里、〔挪威〕安德斯·费格约德:《数字人文:数字时代的知识与批判》,第129页,王晓光等译,大连,东北财经大学出版社,2019。]现阶段,这些计算技术包括可视化与数据设计技术,文本分析、聚合与数据挖掘技术,地理信息系统技术和仿真技术等,这些技术的大规模开发和普遍应用推进了文学数据研究的深入发展。这也可以解释为何在文学数据研究初期,大部分研究只能停留在单体文本词语抽取、词频统计和语法分析上。因为文学数据量不够,计算技术不先进,文学数据研究指涉的对象只能是小数据样本和简单计算分析。20世纪80年代,钱锋、[钱锋、陈光磊:《文学·数学·计算机……》,《自然杂志》1981年第6期。]陈大康、[陈大康:《文学、数学与电子计算机》,《自然杂志》1988年第12期。]丁宁、[丁宁:《系统研究:文艺理论跃迁的契机》,《文艺理论研究》1985年第3期。]、林兴宅[林兴宅:《论系统科学方法论在文艺研究中的运用》,《文学评论》1986年第1期。]等人曾提出文学与计算机科学、系统科学相结合的理论设想,利用数学建模和计算机自动计算的方法,对文学作品的文体特征、审美风格和作者身份辨识进行研究。但在具体实践中,受制于文学数据库和计算技术,大部分研究仍然集中在作品修辞风格的计量分析上,“通过建立语料库,对文本语言的字符、段落、词长、词类、词性以及高频词分布等特征项进行统计,运用计算公式来计算平均段落长度、词长变化、文本聚类等”。[杨建军:《定量分析法在中国现当代文学研究中的运用》,《厦门大学学报》(哲学社会科学版)2016年第4期。]例如,武汉大学语言自动处理研究组通过统计老舍的《骆驼祥子》的词频,来分析小说的审美特征;[陈静:《当下中国“数字人文”研究状况及意义》,《山东社会科学》2018年第7期。]刘宾运用数学建模技术分析《福乐智慧》,经过电脑检索、排序,编制成索引词典的框架;[刘宾:《电子计算机与文学研究——兼谈〈福乐智慧〉(维文版)的微机处理》,《新疆社会科学》1987年第6期。]钱锋、陈光磊通过比较巴金的《我们会见了彭德怀司令员》和倪海曙的《三轮摩托车》中的辞格、音律和章法,确认巴金和倪海曙的小说语言风格;[曾毅平、朱晓文:《计算方法在汉语风格学研究中的应用》,《福建师范大学学报》(哲学社会科学版)2006年第1期。]与此类似,王景丹通过统计曹禺等8位剧作家文本的句频,确认各自文体风格;[王景丹:《从句频分析看八位剧作家的风格异同》,《修辞学习》2003年第4期。]吴礼权通过分析词语、句式和修辞运用,总结“简约”与“繁丰”审美风格的基本特征。[吴礼权:《从统计分析看“简约”与“繁丰”的修辞特征及其风格建构的原则》,《修辞学习》2003年第2期。]从中不难看出,初始阶段的文学数据研究以简单统计文本修辞为主,很少使用复杂的计算模型和计算技术。

21世纪以来,随着数字人文理论在国内的传播,以及众多“关系型数据库的建设、语言信息处理技术的发展和社会计量方法向人文领域的持续渗透”,[赵薇:《网络分析与人物理论》,《文艺理论与批评》2020年第2期。]文学数据研究取得长足进步。例如,罗男运用基于改进的向量空间模型特征权重计算方法(TF-IDF)和潜在语义分析技术(LSI),分析15部金庸小说中的字、词汇、句子和段落4个语法单位,以此探究金庸小说的语言风格,并辨识《卧龙记》的真实作者;[罗男:《基于统计学的金庸小说个人语言风格及疑似作品的证伪研究》,华中师范大学硕士学位论文,2020年5月。]张小宇在建立鲁迅杂文语料库、鲁迅小说语料库和鲁迅同时期作家杂文语料库基础上,使用语料库检索工具AntConc,计算鲁迅杂文的词长、句长、单音节词和双音节词等17个语言特征出现比例,并与同时代作家的杂文语言特征进行比较,以此总结鲁迅杂文的语言风格;[张小宇:《基于语料库的鲁迅杂文语言风格研究》,南京师范大学硕士学位论文,2016年5月。]余韵为了证明巴金前后期小说语言风格的一致性,把巴金小说划分为6个阶段,并建立相应的语料库,在此基础上,计算不同阶段巴金小说的词长分布,词汇丰富度,共现词、独有词、实词和虚词使用频率;[余韵:《巴金前后期小说的计量风格学研究》,华中师范大学硕士学位论文,2017年5月。]与此类似,金迪对格非和余华小说语言风格的研究,[金迪:《基于语料库的格非、余华小说计量风格学研究》,南京师范大学硕士学位论文,2018年5月。]时季对阎连科和刘震云小说语言风格的研究,[时季:《基于语料库的阎连科、刘震云小说计量风格学比较研究》,南京师范大学硕士学位论文,2019年5月。]以及王少康、[王少康、董科军、阎保平:《基于语句节奏特征的作者身份识别研究》,《计算机工程》2011年第9期。]年洪东、[年洪东、陈小荷、王东波:《现当代文学作品的作者身份识别研究》,《计算机工程与应用》2010年第4期。]李慧[李惠、刘颖:《基于语言模型和特征分类的抄袭判定》,《计算机工程》2013年第5期。]对现代作家身份识别和作品辨伪的研究都属于此种研究类型。但上述文学数据研究仍没有突破文体学、修辞学和语言学研究框架。

上一篇 点击页面呼出菜单 下一篇