k-means聚类算法的知识扩散对比研究

作者: 罗欣怡

k-means聚类算法的知识扩散对比研究0

关键词:k-means聚类算法;知识扩散;图书情报学;管理学;经济学;对比分析

0 引言

知识扩散最早于1924年由美国科学家Learned[1]在《美国公共图书馆与知识扩散》一书中提出。陈超美等[2]将基于引文分析的知识扩散定义为知识在科学文献与专利中的应用和发展。在信息化社会,知识发展生产、创新转化的重要作用日益显著,知识扩散作为知识生产和传播的重要组成部分,在知识创新过程中发挥着重要作用[3]。

国内外学者从不同视角对知识扩散进行了大量研究,其中用基于引文分析的文献计量方法来定量研究知识扩散现象持续升温,相比国外研究倾向于计量指标的创新,如Liu和Rousseau定义了学科知识扩散广度(Field Diffusion Breadth) 和扩散强度(Field Diffu⁃ sion Intensity) [4]。国内学者更注重于实证分析,陈吉雨[5]采用LDA主题模型方法,基于语义层次提取并分析主题词,了解图情领域和新闻传播学间知识扩散情况。王立梅[6]基于引文内容构建有向网络,研究老子思想在海外的知识扩散和发展脉络。朱猛男等[7]基于Bass模型进行参数估计,预测学科未来发展趋势,验证是否拟合S型曲线。

现有实证研究主要对学科领域使用引文分析的方法为研究单元,宏观分析某一学科向其他学科扩散情况,而针对某一具体知识在不同领域的扩散比较研究较少。k-means聚类算法作为数据挖掘领域的十大经典算法之一,在众多领域都得到了广泛应用,研究其在不同领域的扩散差异是有意义的。本文根据创新扩散理论,从知识扩散的过程角度,采用时序分析方法,以k-means聚类算法为具体知识实例,结合扩散指标,分析其在图情学、管理学和经济学领域的知识扩散差异,有利于了解各学科目前对k-means的吸收程度和不同的发展方向,能够为分析具体知识在学科间的扩散情况提供借鉴参考。

1 研究综述

1.1 创新扩散理论

创新扩散理论最早由Rogers 提出[8],通过对人类学、社会学、传播学、经济学等领域的实证分析得出:成功扩散的过程呈现钟形正态曲线,创新的累积采纳人数呈S形曲线分布。创新扩散理论的主要概念包括:采纳速度、采纳加速度、一阶拐点和二阶拐点。其中,采纳速度就是某时刻新增采纳者的数量;采纳加速度就是某时刻扩散速度的变化量;一阶拐点就是采纳速度最大的点,此时的采纳数约占最终采纳数的50%,新增采纳数最大;二阶拐点就是采纳加速度最大的点,扩散在此时达到临界值,此后采纳加速度放缓,但仍处于增长阶段,二阶拐点可用于预测知识是否成功扩散。

1.2 知识扩散研究

学术创新的扩散就是学术领域新知识的扩散[9]。从知识扩散的方向来看,知识扩散分为单向和双向,通常从知识单元角度进行统计,知识单元主要有文献、作者、期刊、学科等[10]。其中基于单篇文献的研究是单向的,其余研究单元的扩散过程均为双向。现有实证研究主要以学科为知识扩散的单元,把文献作为研究最细力度的分析对象,着重基础理论研究,构建知识扩散相关评价指标,描述扩散的基本特征进行定量分析,以了解知识在其他领域的扩散情况。国外对于知识扩散研究起步较早,注重计量指标的创新。相比之下,国内学者多进行实证分析。

首先,通过扩散指标研究知识扩散情况是必备步骤。2002年Rowlands首次提出了以期刊为知识扩散的单元的期刊扩散指数(Rowlands Diffusion Index) [11]。Liu和Rousseau[4]基于 ESI 的学科分类定义了“学科知识扩散广度”(Field Diffusion Breadth) 和“学科知识扩散强度”(Field Diffusion Intensity) ,“广度”和“强度”分别从覆盖范围和采纳频次的角度描述扩散过程[10]。国内对学科知识扩散的研究,主要基于学者宋歌定义的相关扩散指标[9]。他将扩散广度(diffusion breadth) 和扩散强度(diffusion strength) 分别定义为:采纳某创新的研究领域数量和关于某创新的知识信息从一个研究领域到另一个研究领域的流量,用创新采纳学科对源发学科知识的引用次数来衡量;扩散速度(diffusion rate) 指一段时间间隔内,新增的知识采纳量;扩散加速度(diffusion acceleration) 指一段时间间隔内,扩散速度的变化量;扩散延时(diffusion delay) 指从知识在源发领域的提出到其他领域的应用必然存在的时间差。

此外,深入到研究内容进行知识扩散研究也是必要的。目前基于引文的知识扩散主要利用小世界、引文网络和主路径分析等方法,进行基于特征、基于路径和基于测度的研究[12]。赵星等通过构建引文网络,定量刻画我国文科领域的知识扩散并将结果可视化[13]。但是已有知识扩散研究多是针对某个领域的扩散特征进行分析,而针对某一具体知识在不同领域的扩散情况研究相对较少。宋歌根据创新扩散理论结合分析时间流的主路径分析方法,进行了具体知识扩散实证研究,根据扩散速度和加速度,创造性地将扩散分为四个阶段[9],此后又通过绘制主题图,细分扩散阶段探究共被引分析方法在各学科的创新迭代[14]。孟文静等[15]从工具视角展现了特定学科应用软件解决学科问题的进程。朱猛男等[7]运用创新扩散理论分析同领域不同软件扩散过程。

1.3 k-means 算法

k-means 算法由Mac Queen[16] 在1967 年首次提出,是一种无监督学习,同时也是基于划分的聚类算法[17]。他给出了k-means算法的详细步骤,并用数学方法进行了证明。初始需确定簇的个数k,通过计算每个数据点到质心的距离(通常使用欧氏距离),选择距离最小的质心对应的簇作为该数据点的划分,基于该划分过程后更新簇的质心。如此迭代,直至各个簇的质心不再变化即算法收敛为止。

由于k-means算法原理简单,实现方便,聚类效果好,模型可解释性强等优点,成功应用于文档聚类[18]、客户细分[19]、异常数据检测[20]、图像分割[21]等众多任务,在2006年ICDM大会上被票选为数据挖掘领域的十大经典算法第二,广受各领域学者的青睐。但k- means算法也存在一些缺陷与不足,比如聚类结果严重依赖于簇中心的初始化、聚类效果对噪声敏感、聚类可能陷入局部最优解、聚类个数如何确定等,各领域的众多学者不断对k-means进行改进[22-24]。

2 研究设计和实验数据

2.1 研究思路

本文从扩散指标和研究主题两个方面来研究具体知识k-means聚类算法在不同领域的扩散差异(图1) 。首先,通过计算多个扩散指标,绘制扩散曲线,对k-means整体扩散和其在选定的几个学科中的扩散情况进行纵向时序分析包括扩散广度、扩散强度、扩散阶段,以此了解所处扩散阶段。依据k-means在源发领域提出的时间和不同领域首次采纳k-means的时间,计算扩散延时,横向比较各学科采纳k-means的起步先后顺序。然后,利用VOSviewer软件进行共词聚类,绘制各学科不同扩散阶段的研究主题图,从主题层面探究各学科扩散发展异同。最后,通过将知识扩散主题演变与学科论文形式的研究成果相结合,分析知识扩散趋势的原因,进行扩散对比,总结扩散指标与扩散趋势的变化关系。

2.2 数据获取及预处理

根据《学位授予和人才培养学科目录》[25](2018年版),图书情报与档案管理属于管理学下设的一级学科,管理学和经济学联系紧密,因此本研究选取图书情报学领域,以及同属于管理类的管理学和相关的经济学,作为实证分析领域。

选取Web of Science(以下简称WOS) 核心合集的SCI-EXPANDED和SSCI数据库作为数据源,采用高级检索,在“Topic”字段输入检索词“k-means”OR “kmeans”以保证检全率和检准率,文献类型设定为“Article”,时间跨度为1967年至2021年,检索时间为2m0e2a3ns年在2所月有1学日科,的命研中究文题献录数,获1取8 2的75数篇据,均这为些不是带k引-文关系的Excel格式数据。进一步地,以WOS学科分类为依据,修改检索式,Web of Science Categories字段分别设定为“Information Science & Library Science”“Management”“Economics”分别获取k-means 在图情学、管理学、经济学的题录数据97条、610条和115条。

通过对原始数据集进行探查,发现存在两条Early Access晚于正式出版年份的异常题录数据,论文分别于2017年和2021年正式出版,但在线发表时间为2020年和2022年。经查阅,此处为确保研究成果扩散的时效性不作处理。至此,将上述18275条题录作为实验数据集。

3 实证与结果

3.1 k-means 算法扩散广度及强度

首先计算扩散广度,了解采纳k-means的学科数量和知识扩散的总体趋势,通过分析k-means在不同学科的领域分布,检验扩散是否服从幂律分布。然后通过比较扩散强度,分析不同领域吸收知识的体量,与后续的扩散阶段分析互为印证。

k-means在诸多领域均有应用的引证文献,只考虑领域论文占比大于0.1%的学科,扩散广度为168,可体现k-means算法应用于各领域的普适性。绘制散点图(图2) ,使用扩散强度验证k-means在各领域的扩散服从幂律分布,即:k-means在极少数的学科领域完成了极大规模的扩散,而绝大部分的学科领域对其吸收较少。本研究选取的图情学、管理学和经济学扩散强度均小于1000,位于幂律曲线的“长尾”部分,数据量相近,表明学科间知识扩散情况具有可比性。

3.2 k-means 算法扩散曲线

根据扩散加速度划分扩散阶段,确定各领域目前所处的扩散阶段,据此预测未来知识扩散走向,同时参考整体扩散情况与之进行比较。其中扩散速度以各学科每年应用k-means 算法的论文数计算,累积文献数形成扩散曲线。

首先,利用扩散速度绘制各学科扩散曲线(图3) 。根据曲线识别得到各领域目前均处于起飞阶段,图情学、管理学、经济学在扩散阶段的文献数分别为51篇、79篇、15篇,起步阶段的文献数分别为46篇、531篇、100篇。各学科扩散曲线进入各个扩散阶段均滞后于总扩散阶段。总体扩散于1991年进入起飞阶段,管理学、经济学和图情学于 2009 年、2013年和2017 年先后进入起飞阶段,成熟阶段和衰退阶段均未显现。可以预测未来几年,三个学科均会产出大量相关研究成果。

其次,通过识别二阶拐点,将起飞阶段划分为两个阶段论述。经济学和图情学分别于2013年和2017 年达到二阶拐点,恰为进入起飞阶段的年份,表明k-means 在两个学科的扩散一经进入起飞阶段就跨越了拐点,进入加速迭代期[14]。由于达到了临界值,其累积成果数在时间轴上将形成 S 形曲线,可以预见k-means 算法在经济学和图情学将实现成功扩散。而总体扩散和管理学的扩散加速度在2021年最大,此后扩散加速度是否继续增大犹未可知,故扩散曲线暂未出现二阶拐点,表明这两个学科的知识扩散的累积采纳数未达到临界值,是否成功扩散也有待探究。此外,由于各学科的扩散速度仍在不断增长,无法判断何时到达 S 型曲线的一阶拐点。总结上述情况,得到表1。

3.3 k-means 算法扩散主题识别

利用VOSviewer软件[26]对题录数据中的标题和摘要基于共词进行聚类,并通过自定义同义词词典合并同义关键词,分别绘制起步阶段和起飞阶段研究主题图,探究各学科知识扩散的异同。

上一篇 点击页面呼出菜单 下一篇