

生成式人工智能技术赋能大学学术评价:机遇、挑战及应对
作者: 石秀选 李均摘 要:当前大学学术评价面临诸多困境:评价理念重视管理导向,难以满足学术成长价值期待;评价主体执念人为主宰,难以应对知识增长评价需求;评价方法倚重量化指标,难以呈现学术成果本质样貌;评价程序追求价值隐涉,难以确保评价结果公平公正。生成式人工智能技术的勃兴,为大学学术评价范式的转型升级提供了新机遇:构建面向未来的大学学术评价,彰显价值理性;超越人为主宰的大学学术评价,提升评价效能;打破形式主义的大学学术评价,反映真实样貌;削弱主观偏见的大学学术评价,促进结果正当。然而,生成式人工智能技术赋能大学学术评价也面临诸如评价工具理性强化、评价主体失序、全面评价数据缺失、评价信任危机等挑战。相应的应对措施包括:平衡张力,响应多元评价诉求;人机共生,重塑双重主体位序;信息共享,推动开放科学发展;算法透明,增强评价可解释性。在中国式高等教育现代化的背景下,应高度重视生成式人工智能技术对大学学术评价治理现代化的重大意义。
关键词:生成式人工智能;学术评价;机遇;挑战;应对
近年来,以ChatGPT为代表的生成式人工智能技术的勃兴引起了广泛关注,将对人类经济社会带来极为深远的影响。大学组织作为社会经济发展的重要智力支撑,不可避免受到以ChatGPT为代表的智能技术的巨大影响和冲击。特别是大学学术评价更可能首当其冲受到直接冲击。众所周知,学术评价改革是世界性的难题。数十年来,国际学术界各种改革尝试因为传统观念和各种复杂因素的制约而步履艰难。在国内,2020年颁布的《深化新时代教育评价改革总体方案》已整整满三年,但学术评价仍然是大学教育治理中一个难以言状的难点和痛点,民间甚至有所谓破“五唯”“越破越唯”“越改越卷”的说法。我们相信,随着生成式人工智能技术作为一种新质生产力在经济社会各细分领域的加速赋能及应用,未来学术评价智能体(Agent)的创建有望为化解大学学术评价的困境提供有效的外部驱动力量,对创新大学学术评价理论、推进学术评价范式转型升级、推动大学学术评价实践改革具有重大意义。
一、当前大学学术评价面临的主要困境
学术评价是以追求真理和知识创新为尺度,对学术活动效果做出价值判断的过程。大科学时代,知识生产模式转型升级,知识数量爆炸式增长,传统的学术评价方式难以有效应对知识合理性、管理有效性、社会贡献性与主体发展性等多元诉求,学术评价的工具理性和价值理性内在张力不断凸显。审视当前整个大学学术评价体系,我们认为,在学术评价理念、评价主体、评价程序等方面面临诸多困境。
(一)评价理念:重视管理导向,难以满足学术成长的价值期待
学术评价的理念是多元的、复杂的,不同的评价理念会导致不同的评价方式和标准。从大学管理的角度来看,学术评价以决策和目标为中心,把评价结果当作奖惩和资源分配的依据。基于管理的有效性,大学学术评价往往需要提供一个稳定、可靠的参考框架,以便对学术成果、研究者和研究机构等进行评估和管理。以大学学术评价中典型的“以刊评文”现象为例,它采用固定的、预先设定的评价标准来评价论文的质量和价值。学校期刊级别的界定,尤其依赖于期刊的影响因子。“以刊评文”的确提供了一个简单、明确的评价标准,简化了评价过程,提高了管理效率。但是,不难发现:SCI、SSCI、CSSCI与学术评价量化管理相结合的理念,“隐藏的是方便行政管理的考虑,其以客观数据的话语形式对科学和公正的权威性进行诠释,成为行政权力部门在学术资源分配和科研管理中最为需要和最好用的评价方法”[1]。然而,这种以期刊影响因子高低论英雄的传统评价方式实际上是一种面向过去的静态评价,它采用的是自上而下的评价方式,缺乏与研究者的交互,忽略研究者的声音和诉求。第四代评价理论对这种传统的“预定式评价”提出了严厉批判,认为其过分强调“科学实证主义”方法,且进一步支持和强化了学术评价的管理主义倾向。实际上,这种长期以来占主导地位的量化评价深受泰勒“科学管理主义”思想的影响,采用行为目标模式,虽然便于管理,但不利于对学术成果进行综合和全面的评价,也不利于促进评价对象的专业发展。
(二)评价主体:执念人为主宰,难以应对知识增长的评价需求
在学术评价过程中,评价主体是维护学术质量的关键因素,是学术品质的重要守护者。从古至今,人在各类评价体系中占据绝对主宰地位,大学学术评价也不例外。这是因为人的评价不仅仅是基于逻辑和理性,更是基于情感、价值观和文化背景,人的评价总是具有深度和多样性。然而,特别是进入大科学时代以来,全球学术成果发表数量呈显著增长趋势,人的评价能力很难满足日益增长的学术评价需求。2018年,美国自然科学基金会报告提出,过去十年全世界同行评议的科学和工程类期刊论文以及会议论文数量以平均每年约4%的速度增长。[2]同年,国际科学、技术和医学出版商协会(STM)则统计出,自17世纪以来同行评审期刊数量以每年3.5%的速度稳步增长,2008年至2018年增速达到每年5%-6%,每年平均发表150万至300万篇文章。[3]随着学术论文出版数量的不断增长,同行评议面临越来越大的压力。不仅如此,从知识生产模式的转型升级来看,知识生产模式Ⅰ、模式Ⅱ和模式Ⅲ的知识生产结果显著不同,呈现出从学科知识,到社会弥散的、具有社会问责和反思性的知识,再到形成多种集群、创新网络和创新生态特征的知识。可以发现,知识生产模式日趋复杂,对传统评价主体知识有限性提出了更为严峻的挑战。概而言之,理论上重视人在评价中的主导作用无可厚非,但评价实践中过于强调人为的绝对性,把人当成评价的绝对主宰,就容易走向偏执,必然会导致评价的局限性。
(三)评价方法:倚重量化指标,难以呈现学术成果的本质样貌
“引文分析评价具有事实上的客观性、数量上的可积累性、学科上的公平性、实践上的易操作性等优点。”[4]因此,作为科研量化评价指标的引用次数一直是国际上通行的做法和普遍趋势。引用次数已成为一种广泛认可的评价标准,深刻影响着全球的学术评价体系。审视当下的大学学术界,从SCI、SSCI、A&HCI、CSSCI等学术期刊索引,到H指数、P指数等学者评价指标,再到ESI、QS、THE、软科等学科与大学排名,均将学术引用次数视为学术评价体系的基石。以引文分析为基础的量化评价简单、直观,反映了现代社会对于效率的追求,为大学学术界带来了一种明确的激励机制。然而,量化评价的局限性显而易见。从引用目的来看,学术引用是研究者出于学术创作的一种建构行为,并不具备直接的学术评价功能。为了提供更有说服力的证据,研究者更青睐于引用名刊、名家与主流语言国家学术成果,这种片面性会引发学术引用的“马太效应”,导致某些独特的、创新的学术成果被低估或忽视。实际上,引用次数更多是对学术影响力的测度,并不能呈现学术成果的整体性样貌。学术评价实践中过于推崇甚至神化学术引用次数、影响因子等量化评价指标,并将其简单与学术质量画上等号,对于知识生产和创新存在极大的风险。
(四)评价程序:追求价值隐涉,难以确保评价结果的客观公正
比贝(C.E.Beeby)在1975年第一次提出了“价值判断”才是评价本质的观点。[5]事实证明,评价不可能只是对信息作简单描述,它总是包含着对一定价值关系及后果的预见和推断。有研究者进一步指出,学术评价是学术共同体的“专属领地”,自由裁量权成为学术评价与生俱来且永不可能消失的权力。而且,学术评价符合程序不能代表程序正当,程序正当并不意味结果公正。[6]因此,学术评价主体秉承的价值观会以隐蔽的方式渗透到评价的各个环节,致使评价结果难以避免存在主观性。以传统的引文分析法为例,一直存在规范主义与社会建构主义的流派之争,引用的公正性遭受质疑。规范主义流派代表人物莫顿(Merton)认为,引文被认为代表作者对前人研究的一种关注,进而对前人研究的借鉴作用表示感谢和认可。[7]社会建构主义流派却认为,引用绝非对他人贡献表示认可和感谢那么简单,而是有着复杂的经济、社会和政治上的原因。[8]事实上,当代大学学术评价的结果直接关系到研究者的资金支持、专业发展和学术地位,与研究者的实际利益息息相关。因此,引文分析看似以数字测量的方式客观表征学术影响力,但其背后隐涉着复杂动机,不论对于研究者个人还是学术期刊来说,引用存在文化、利益、语言等价值偏见和主观操纵已成为学界公开的秘密。
二、生成式人工智能技术赋能大学学术评价的机遇
微软CEO萨提亚·纳德拉(Satya Nadella)称ChatGPT的出现“对于知识型工作者来说,这就完全等于工业革命”。可以预见,生成式人工智能技术将重塑知识生产行业,对大学学术评价范式变革显示出巨大潜力,将为重构大学学术评价的理念、主体、方法和程序带来新的机遇。
(一)构建面向未来的大学学术评价,彰显价值理性
北京师范大学前校长董奇教授在题为《面向未来的智能化教育评价》的主题报告中提到,面向未来的智能化评价的重要新趋势是评价功能的变化,即从过去的甄别、选拔,到精准改进、促进发展。[9]这与第四代评价理论的主要观点不谋而合。第四代评价理论以“回应和协商”为主要特征,强调评价对象在评价活动中的主体地位,重视形成性评价的作用,注重对评价对象的改进作用。面向过去的学术评价主要基于已有的引用次数、影响因子等数据,以评估学术成果的水平、研究者和学术机构的贡献,而面向未来的大学学术评价更加关注研究者的学术成长、研究潜力和创新能力。未来,ChatGPT、文心一言、KIMI等通用大语言模型经过专业调适后形成垂直的学术评价模型,通过API接入学术文献数据库,以网站或APP等应用程序呈现,即可创建面向用户使用的学术评价智能体。用户可以自如地与学术评价智能体对话,自然而且流畅,其即时交互性功能将对构建面向未来的评价发挥关键作用。这种实时交互的云沟通媒介,为多元评价主体与评价对象之间实现如第四代评价理论所主张的基于学术成果评价的“诠释辩证循环圈”提供了可能。大学学术评价不再是一个单向的、静态的过程,而是一个多向的、动态的互动。“回应和协商”不再是空中楼阁,它将成为现实,通过多元主体开展深度的学术对话,将促进对学术成果的批判性思考和深入理解,不仅有助于研究者发现自身研究的局限,而且能够激发他们发现新的研究方向和机会。学术评价智能体可以同时开展面向过去的评价和面向未来的评价,既可以满足学术管理的需要,也可以很好地促进研究者的学术成长。
(二)超越人为主宰的大学学术评价,提升评价效能
2018年,麻省理工学院(MIT)启动的智能探索计划,将机器逼近人类智能的层级划分为“识别”“感知”“学习”“意义”“创造力”等五大类型,而ChatGPT表现出的技术特征已逐渐触及 “意义”层面。可见,生成式人工智能表现出了一定程度的类主体性,意味着学术评价可以不再完全依赖于人类专家。作为一个高级机器学习模型,它虽然不具备真正的自我意识,但在处理和生成评价文本时展现出了一定的“策略”。这种能动性使其在某种程度上超越了传统的工具和机器的范畴,更接近于一个有“意图”的实体,表现出类似于人类主体的特质。以ChatGPT为例,每一代模型的参数量都呈爆炸式增长。Open AI公开数据显示,2019年2月发布的GPT-2参数量为15亿,而2020年5月的GPT-3,参数量达到了1750亿,预训练数据量从40G升级到45TB。以此推测,不难想象ChatGPT4及未来更高版本的参数量可能达到万亿级别,预训练数据量可能达到百T级别,这种超级大脑远远超过人类个体大脑的数据存储量。可以大胆预测,一旦人工智能通用语言模型实现100万亿参数规模,就可以堪比人类大脑,意味着这一系统开始具备人类思维能力,并有可能在某一方面或其他方面替代人类。在未来的大学学术评价过程中,生成式人工智能技术可以减少学术评价中的重复劳动和无效劳动。更为重要的是,它可以凭借强大的算法和算力,对大量的学术数据进行快速、准确的分析,提供客观、理性的评价建议,满足未来更大规模知识生产和更为复杂的知识创新生态的评价需求。《自然》(Nature)杂志预测,对话式AI技术将会取代人类的编辑和审稿人,可以评估和审查文章。尽管离这种情境还有一段距离,但毫无疑问,它将越来越多地影响学术成果出版和发表过程的各个阶段。
(三)打破形式主义的大学学术评价,反映真实样貌
构建基于生成式人工智能技术驱动的学术评价方法将成为未来的趋势。弗朗西斯科·隆扎诺(Ronzano Francesco)等提出利用文本挖掘和语义建模等人工智能技术来识别学术论文中的创新点、亮点等以评价学术成果价值。[10]曾建勋提出学术评价应从文献计量、替代计量走向语义计算,创设信息化、语义化、智能化评价工具,构建基于语义内容创新科技成果评价的工具和模式。[11]生成式人工智能技术为打破形式主义评价带来机遇。以ChatGPT为例,它摒弃了传统的循环神经网络(RNN)和长短时记忆网络(LSTM),转而采用自注意力机制来捕捉文本中的长距离依赖关系。这意味着模型可以更加高效地处理大量文本数据,捕捉到文本中的细微关联,在自然语言领域具有显著优势。在大学学术评价中,学术评价模型可以被训练来理解和评估学术文本的质量和重要性。具体来看,学术评价智能体凭借自然语言处理技术,可以检查学术成果语法和拼写的正确性以及评估语言流畅性。通过深度学习技术,对学术文本进行深入的语义分析,可以捕捉到学术成果的内在质量。例如,它可以识别出文本中的关键观点、论证结构和逻辑关系,从而评估学术成果的论证深度和逻辑严密性。它还可以对学术文本进行详细的比较和对比,识别出学术成果与现有研究的差异,发现新颖之处,更为准确地评估学术成果的原创性和创新性。总体而言,生成式人工智能技术可以对学术成果内容的表现力、创新力、贡献力等开展多维度评价,对传统基于引文分析形成的学术影响力评价予以补充和拓展,从更为本质意义上反映学术成果的整体样貌。