基于社交网络平台构建新型科研评价体系的几点思考

作者: 王占军 石秀选

[摘 要]当前我国的科研评价体系常用的基于数量统计的文献计量法和基于小范围专业人士的同行评议均存在一定弊端,科研评价的发展遇到了瓶颈。在科研评价体系的创新方面,社交网络平台的打分和排名机制、国外基于社交网络开展科研评价的探索提供了借鉴。新型科研评价体系应在依靠“电脑”文献计量的基础上,最大限度发挥“人脑”专家评议的作用。在此意义上,可以尝试基于社交网络平台建立一个科研平台评价与共享体系,尽量吸纳专业人士乃至公众参与科研评价,在技术方面实现程序正义的基础上,尽量追求科研评价的实体正义。

[关键词]文献计量;同行评议;社交网络平台;新型科研评价体系

[中图分类号]G647 [文献标识码]A [文章编号]2095-3437(2024)24-0012-05

科研评价在学术研究中的作用毋庸置疑,管理部门和学界也越来越认识到这一点。当前我国的科研评价正在矛盾中向前行进:一方面,评价机构和评价体系不断增多,许多高校和科研单位也不断提出科研评价的革新措施;另一方面,各种评价体系所遭受的质疑仍持续不断,传统的以量化评价为主的评价体系并未能彻底得以改观。不可否认,每种评价方法均有其优点和局限性,关键是科研评价创新要顺应社会发展开放和分享的趋势,对科研评价体系不断加以改进和完善。

一、当前科研评价的现状与发展瓶颈

当前常用的科研评价方法大体可以分为两类:以文献计量(bibliometrics)为核心的量化评价方法和以同行评议(peer review)为核心的定性评价方法。在科研评价实践中,这两种方法各有其长处与不足。

(一)文献计量法及其局限性

基于数量统计和计算技术的文献计量法长期以来是国内科研评价的主要手段之一。国外有一些指标体系如科学引文索引(SCI)、社会科学引文索引(SSCI)、艺术与人文科学引文索引(A&HCI),国内的主要有南京大学中国社会科学研究评价中心的中文社会科学引文索引(CSSCI)、北京大学的中文核心期刊要目等。这些具有一定权威性的检索系统采用不同的计量方法,因其便于参考和操作,逐渐成为不少高校和科研机构开展跨学科科研评价的一个重要手段。建构一种相对刚性的评价指标体系作为人才的鉴识、筛选、聘任与考核的依据,乃至作为系统内部机构、学科以及人才地位和声誉资源分配的参考,对于有简便、经济、易操作、少生是非和高效偏好的各级管理者而言,无疑是最合用的工具[1]。但随着社会的发展和科研的进步,实施量化评价机制的弊端逐步显现,越来越多的研究者对文献计量法的有效性提出了质疑,他们认为隐藏于引用行为背后的动机较为复杂,单凭引用率并不能真实、准确地反映科研成果的价值,量化评价存在过度量化、行政主导、同质化、忽视差异性和人文社科学科发展规律等弊端[2]。影响因子、引用率等指标使量化评价具有定性评价难以比拟的清晰、直观优势,但以定量为主的评价指标体系难免存在“形式评价”的弊端,对科研成果的内容尤其是创新之处的判断在量化评价中难以令人信服。量化评价如果被当作最重要甚至是唯一的标准,其弊端显而易见。

(二)同行评议面临的困境

由于对文献计量评价有效性产生质疑,从20世纪90年代开始至今,学者们更关注同行评议。国内众多人文社科学科研究者批判了功利性量化评价的弊端和对人文社科学科研究积极性的“扼杀”,建议顺应国际趋势、重视以内容评价为主导的质性评价[3]。同行评议把研究成果的评价权赋予学术研究的专家,顺应学科分工日渐精细的趋势,符合学术发展的客观规律,是一种为学术界的实践所证明了的、相对客观公正的评价制度。但正如《难有同行的科学:同行评议与美国科学政策》等著述中所言,科学中难以找到真正的或绝对的同行,主观判断和立场偏差对评价结果的影响是致命的,同时在评议过程中,评议人很难避免受到被评议人的个人特征如社会地位、职业年龄、学位及其授予机构声誉的影响,也很难避免受到评议人与被评议人之间利害关系的影响[4]。同行评议难以防范利益冲突,难以避免受到朋友圈、关系网等因素的影响。同行评议还容易产生马太效应,对已有相当高声誉的学者给予更多关注和认同,而对那些具有较强创新意识的年轻学者则易于低估甚至忽略他们的成绩。北京大学陈平原指出,内地的整个科研评价体系客观上成了内部评审,一定要改内部评审为外部评审,避免让人情代替学术,否则,那些学问好而不擅长经营人际关系的人,在这个环境里是很难得到承认的[5]。

(三)国内科研评价的发展瓶颈

国内目前使用最普遍也被认为最具实效的科研评价手段仍是量化评价,以积分折算对成果价值进行考量仍是许多高校科研评价的普遍做法。尽管同行评议在项目评审、成果评奖等方面得到了一定认可和推广,但从总体来讲,主观性强、难于操作等特点使其仍处于量化评价的补充位置,未能在科研评价实施中占据主流。在当前许多高校与科研机构内部的科研评价体系中,项目评价主要按等级区分;文章评价以论文为主,基本上不考虑其他类别文章的科研价值,在论文中又以其所发表刊物的等级及其被收录、被引用情况等来衡量其价值;对于专著主要看其出版社、字数;对于研究报告主要看采纳单位级别;而对各种创作类成果的评价则处于无序状态,缺乏相关评价标准和体系。即便在较为成熟的学科评价体系中,科研成果的价值评定仍存在明显分歧,如文史哲等学科国际化程度低,在国际期刊收录检索、引用和转载等方面处于劣势地位。

国内学术界对指标量化评价等评价手段的批评一直在持续,随着科学职业化的不断深入,追名逐利也开始与科学活动相伴而行,只要有指标就会有人研究指标,进而为了达到指标去努力[6]。随着我国科学研究的发展,以量化评价为主体的科研评价体系也愈发难以适应科研成果从主要看其数量到主要看其质量的转变。同样,基于专业分类的同行评价机制也被认为存在不少弊端,学术权力的渗透以及中国式人情关系的延伸可能给学术的独立性带来巨大威胁,同行评价仍难以完全避免受到“熟人关系网”的影响。

二、社交网站打分制及国外利用社交网络开展科研评价的尝试

当前科研评价体系的弊端已越来越多地为大家所认识和了解,但用何种方式替代它们却是一个争论不休的话题。互联网的快速发展为学术评价的创新探索提供了更多可能。一方面,IMDb(Internet Movie Database)、豆瓣电影等社交网站采取的打分制为科研评价提供了借鉴;另一方面,近年兴起的学术与科研社交网站如Peerage of Science等让人们看到了更多可能。人们逐渐发现,学术圈子打破壁垒走向开放和分享已成为一种趋势。

(一)社交网站的打分和排名机制

电影与书籍的公共评价可以为科研评价带来一些启示。在生活中,当人们想选择一部好电影去观看的时候,可能会去一些有社交属性的网站查找这部电影在大众评价标准下的得分。世界范围的主要看IMDb,而在国内则主要是看豆瓣电影和时光网的评分。

IMDb作为中国内地以外的观众最常参考的电影评分机构,在评选TOP250电影的时候采用了一种复杂的加权排名制度,通过复杂计算,IMDb的TOP250榜单不会给那些投票者较少的优秀小众电影关上入选榜单的大门,同时要排除刷票行为的影响,其关键点在于看“经常投票者投票人数”。具体来说,当粉丝为一部电影拉票的时候,他们可以号召非用户在IMDb上注册并给这部电影打分,这些新增的用户和在IMDb上经常打分的老用户是有区别的,前者打的分数可以显示出来,但只有后者的打分才能被有效计入最终的榜单当中。

无论是用极其复杂的算术公式来排除所有干扰因素的影响,还是使用平均数来反映整体意见,排名规则最终总是要达到两个目的:按照平台的定位,能够体现最广泛或最核心用户的真实想法;不易被主观带有恶意的规则破坏者所利用。依靠一定的客观程序,同时反映的是大众的主观意见,社交网站的这类做法可以为学术评价提供借鉴。

(二)国外基于社交网络开展科研评价的探索

在科研成果评价方面,期刊编辑领域的探索走在了科研管理部门的前面。当前期刊审稿的通常做法是由编辑将投来的稿件发给专家进行评审,但这种通行的同行评审制度正在暴露出越来越多的缺陷:一方面,由于稿件质量良莠不齐,评审专家需要耗费大量的时间、精力,审稿效率相对较低;另一方面,即使在匿名的情况下,也无法避免专业领域内的主观偏袒等问题。随着社会的发展,许多人提出了利用社交媒体以及引入投稿人与评审专家的学术信誉等方式,以此使评审过程更加透明,从而使评审结果更加客观。

较早在此方面作出重要探索的是芬兰研究人员,他们通过与生态学期刊Ecography及Wiley出版公司合作开发了同行评议兼社交网络系统Peerage of Science。在系统中,研究者首先将稿件上传,稿件会以匿名的形式发布。审稿人可根据稿件内容作出是否接受评审的决定,接受评审后不仅可以对稿件进行评审,还可以对其他审稿人的评审情况进行打分,分值为1~5。与系统合作的编辑也可参与评论,并申请获得更新后的稿件。稿件作者则可对编辑的建议选择接受或拒绝。审稿人每完成一次审稿,就会收到一个信誉积分。有足够的学术信誉积分同样也是审稿人以作者身份上传稿件的必要条件,他们每次上传稿件也需花费一定的学术信誉积分。在此情形下,有投稿需求的研究者就需要完成一定的审稿工作,这也是提高评审积极性的有效办法。同时,系统设置审稿人不能评审自己所在高校或研究机构以及与自己合作过的研究者的稿件,以尽量避免出现徇私舞弊现象。在征得审稿人同意之后,Peerage of Science系统会将审稿人的评论发表在在线杂志Proceedings of Peerage of Science上,这种开放性特征提高了评审的透明度,同时也激励审稿人作出高质量的评论,防止审稿人不负责任地随意评价。

不难看出,Peerage of Science 系统实际上是一个具有创新性的科研工作者社交网络。Peerage of Science系统的研发标志着目前对于科研成果评价的优化在期刊采稿领域取得了一定的创新突破,期刊采稿编辑对于科研成果质性评价的探索将会是构建新型科研评价体系的一个有益借鉴。

三、利用开放式的网络平台构建新型科研评价体系的设想

事实上,同行评议与量化评价本身并不是相互对立的,而是相互联系、互为基础的,甚至量化评价本身就包含有同行评议的成分。两类方式各有其优缺点:基于专业同行的“人脑”的优势在于其专业性和灵活性,可以根据专业同行自己的专业储备对成果的质量尤其是创新之处作出判断;其缺点则是难以避免主观性,个人的知识欠缺或偏狭甚至好恶和情绪都会对评价结果产生决定性影响。基于数据的“电脑”则具有客观、便捷等“人脑”所难以比拟的优点,当前技术支撑的强大足以实现设置一定的条件就可以得到想要的大部分数据,但其僵化的机械性弊端却始终难以避免。不仅数据可以修改操控,而且很多时候,被引用或被下载数据更好的成果未必就比这类数据差的成果优秀。随着科研的发展和学术界认识水平的提高,如何将量化评价和同行评议加以综合利用进而提升科研评价的效能逐渐受到越来越多的重视。

(一)科研评价与公众参与

现有的科研评价体系已运行多年,量化评价和同行评议都被实践证明是具有一定作用的科研评价方法。但如何才能更好地凸显其优势、弥补其不足,促进科研评价体系的进一步完善,社交网站的打分方法和基于网络的同行评议方法提供了借鉴。毋庸置疑,社交学术网络的推广会涉及学术平民化的问题,比如,对电影和图书的评价也是有一定知识门槛的,但电影和图书具有一定的通俗性,这为公众评价提供了可能。以豆瓣为例,豆瓣电影排行TOP250靠前的有《肖申克的救赎》《这个杀手不太冷》《阿甘正传》等,豆瓣图书排行TOP250靠前的有《红楼梦》《飘》《百年孤独》等,截止到2024年1月25日,优秀电影《肖申克的救赎》的评价参与者有297万多人,而图书《红楼梦》参与者有41万多人。这在一定程度上说明电影的普及程度和观赏性要优于图书。从电影和图书排行TOP250来看,大众口味和精英意识在一定层面上达成了和解。尽管仍有分歧,但豆瓣电影和豆瓣图书的评分已经成为许多电影和图书爱好者进行选择的重要参考指标。科研成果不同于电影和图书。中央电视台《百家讲坛》栏目风靡全国的时候,易中天等学者曾引发“学术平民化”与“学术庸俗化”的争论。当然,争论正是学术研究本身所具有的特点及价值所在。学术正是在争论中接近真理,在服务公众时体现价值。科研成果的评价显然不能完全照搬电影和图书的评价方式,但这不等于让一定的公众参与评价的方式完全不适用于学术领域。