基于主题偏好的数字图书馆个性化检索算法研究
作者: 樊伟红 郑聪
摘要:由于当前数字图书馆所采用的个性化检索算法缺乏对用户喜好的有效聚类分析能力,致使用户难以准确、迅速地获取其所需信息。因此,文章设计了基于主题偏好的数字图书馆个性化检索算法。该算法利用向量空间模型对用户的主题偏好进行深入挖掘并赋值。随后,采用TF-IDF算法作为图书指标权重的计算方法,对赋值后的聚类结果进行处理,以此作为图书的类别标签。运用Multi-Agent模型构建了相应的图书个性化检索模型,旨在提升数字图书馆系统的检索效率。为了验证所提方法的有效性,设计了对比实验环节。通过将所提方法与传统方法进行对比,结果显示:所提方法的检索结果误差率更低,结果弹出率更高,且结果输出时间更短。这些优势表明,所提方法的使用效果相较于传统方法具有显著提升,进一步证明了该方法在实际应用中的更高价值。
关键词:数字图书馆;主题偏好;个性化检索;Multi-Agent模型;向量空间模型
中图分类号:TP393 文献标识码:A
文章编号:1009-3044(2024)23-0017-04
开放科学(资源服务)标识码(OSID)
0 引言
至今,数字图书馆的定义还没有得到一个准确的、具有共同认知的定义[1-2]。从宏观进行分析,数字图书馆是图书馆内由计算机处理的数字信息仓库,可使用数字技术进行信息资源组织与管理,为用户提供便利的图书馆功能与服务[3-4]。在数字图书馆服务中,个性化检索是其主要功能之一。所谓的个性化检索是根据用户的兴趣特点,向用户推荐其感兴趣信息的信息搜索方式,其原理是根据用户喜好内容为其推荐匹配信息。随着用户数量的逐渐增多,需要对用户的需求信息展开研究。因此,相关学者提出了大量方法以解决信息检索问题。
文献[5]设计了一个基于大数据分析技术的数字图书馆信息检索模型,采集数字图书馆信息检索历史数据,引入大数据分析技术构建信息检索模型,通过实例验证所设计模型的优越性。结果表明,该方法能够针对性地对需求信息进行检索,但是在面向海量数据信息时,存在结果输出时间较短的问题。文献[6]提出一种基于递归神经网络与注意力机制的动态个性化搜索算法,采用递归神经网络建立用户个性化偏好模型,根据用户兴趣的动态性建立模型,通过注意力机制对历史用户行为进行加权处理。运用用户模型得到信息查询与文档之间的相关度得分,获取个性化排序结果。实验结果表明,该算法能够取得较好的个性化搜索结果,但是存在检索结果误差率较低的问题,并且用户喜好划分能力不强。除此之外,文献[7]提出了基于数据挖掘技术的图书馆个性化快速推荐算法,通过改进的Apriori算法分析图书借阅历史数据,分析数据之间的关联性,从而实现个性化推荐。实验结果表明,该算法具有较快的结果输出速度,但是在结果弹出率方面还有待加强。
根据上述分析可知,传统方法的使用效果并不能为用户提供满意的服务。为此,在此次研究中将根据用户对于书籍内容的主题偏好对个性化检索服务展开优化,设计基于主题偏好的数字图书馆个性化检索算法。在此次研究结束后进行对比实验,验证此次研究中设计方法在实际使用中的可行性与科学性。
1 数字图书馆个性化检索算法设计
在本次研究前,对目前使用的数字图书馆个性化检索算法进行了系统且全面的分析,通过分析结果可以发现,当前使用的数字图书馆个性化检索算法具有计算速度缓慢、用户喜好划分能力较低的问题。针对上述问题,在此次研究中将设定用户主题偏好挖掘模块,并从整体化方向提升数字图书馆个性化检索算法的使用效果。
1.1 用户主题偏好挖掘
通过文献研究可知,在用户使用搜索引擎时,关键词输入是用户的显性需求,由于词汇输入的准确性、用户描述的规范性等问题,使用此种方式得到的搜索结果往往达不到用户的搜索要求。因此,在本次研究中主要对用户的搜索主题偏好进行挖掘分析。使用向量空间模型[8]对用户主题偏好进行表示,在数字图书馆系统中建立[N]维的主题向量空间:[[(s1,r1),(s2,r2),...,(sn,rn)]]。其中,[sn]表示第[n]个搜索关键词,[rn]表示用户在[sn]上的偏好程度,[i∈1,2,...,n]。使用此设定可得到的用户主题向量的偏好内容可表示为:
[R=(r1,r2,...,rn)] (1)
使用式(1) 对用户操作日志进行分析,得到该用户在此阶段的主体偏好[rd]。由于在用户的操作过程中含有大量的浏览、下载、收藏等操作,其中包含了用户的很多喜好信息,为了得到更加精确的用户喜好信息,构建相应的日志分析模块,获取用户操作内容集合,则有:
[Rd=(rd1,rd2,...,rdn)] (2)
使用式(2) 统计用户的访问与搜索频率,对不同的操作内容进行权重计算,并进行对应的加权处理得到此关键词的访问频率,即可得到用户在此主题上的访问情况,将此作为用户的主体偏好程度,并将其体现到向量空间中,从而得到用户的主题偏好向量,具体表示如下。
[Rd=(r1,r2,...,rn)] (3)
仅使用上述公式完成分析过程是具有一定局限性的,因为在用户的搜索过程中会出现输入不规范、输入内容不当等问题,同时在上述公式的使用过程中会出现噪声影响或者遗漏等问题。因而,根据上述公式设定结果,使用Canopy算法[9-10]这种低成本的聚类算法对用户的主体偏好进行计算处理,则用户最终主题偏好可体现为:
[A=α×Gd+β×Ggroup] (4)
式(4) 中,[Ggroup]表示用户群主体偏好,[Gd]在此公式中与[Rd]等价。使用此公式可得到各阶段的用户偏好向量,对其进行赋值,可得到准确度更高的偏好向量聚类结果。使用上述公式对数字图书馆中的数据进行处理,并将处理结果作为后续操作对象。
1.2 设定图书信息标签
对使用上文处理后的数据进行标签聚类处理,在此环节中,使用TF-IDF算法[11-13]作为图书指标权重算法。设定[TF]表示图书标签与图书之间的相关程度,如果图书中出现的某一种标签较多,则图书与这一标签的相关度越高。则图书[p]中标签[bi]的[tfi]可表示为:
[tfi=ni,ji=1nbi×ni,j] (5)
式(5) 中,[ni,j]表示图书[bi]被标签[p]标注的次数,分母则是图书[bi]被所有标签标注的次数总和。通过文献研究可知,IDF表示一个标签对图书集合的普遍性权重[14-15],如果此标签在图书中使用的次数越多,则此标签可能描述了图书的多种特征,不具备代表性,权重计算结果可信度较低。则标签[fi]的[idfi]计算过程可表示为:
[idfi=lgYj:fi∈ni,j] (6)
式(6) 中,[Y]表示图书馆系统中的图书种类总数,分母表示被标注过的图书数目。如果使用的标签是不存在的,则可将分母视作0,针对此特殊情况,分数可适度额外增加1。最后,将式(5) 与式(6) 结合,得到最终的指标权重,具体公式如下所示。
[hij=idfi×tfi] (7)
使用上述公式,得到图书信息标签权重信息,并选择合适的标签聚类算法对其进行处理,在此研究中选用C均值聚类算法对其进行处理,为了提升使用效果,设定标签向量[j]与标签向量[k]之间的函数距离计算公式如下所示:
[dist(j,k)=1-k∈ynlj×lkk∈ynlj2k∈ynlk2] (8)
式(8) ,[dist(j,k)]表示上述两标签向量之间的函数距离,使用此公式对图书信息标签进行处理。在此次研究中,为了更好地完成聚类处理过程,将设定固定的迭代处理次数,并选择每个迭代过程中的最小值作为距离标准。
1.3 实现图书个性化检索
在上述设计中,完成了文中设计方法的基础设计部分,在此部分中将对上述设定部分进行综合处理,实现图书个性化检索。根据数字图书馆系统中检索信息的分布性特点,可知其内部空间信息具有空间上与功能上的分布性。为了提升检索速度,此次研究中使用Multi-Agent模型[16-17],构建对应的图书个性化检索模型。为了保证此模型的使用效果,根据软件工程学设计原理,将此模型内容设定如图1。
根据图1,构建相应的检索模型并将其应用到数字图书馆系统中,并将系统中的二元变量分为两类,将此两类数据在系统中的数据库记录设定为[q]与[w],通过计算相异度的形式,得到图书馆系统可提供的主题个数。图书馆系统中的图书主题具有多种,用户只能搜索到其中的一小部分,用户与图书馆系统中的图书种类呈现出不对称变量的形式,以此可以使用Jaccard系数来衡量用户可检索内容。由于图书馆系统中多使用互联网技术作为依托,为了使此次研究结果的使用效果更佳,除上文中设计的主体偏好挖掘技术之外,还应将用户画像技术应用至此次研究设计方法中,实现数字图书馆的个性化服务。
将文中设计内容有序融入传统方法中,通过局部优化的方式,对传统方法进行整体化性能提升,以此保证文中设计方法的使用效果。至此,基于主题偏好的数字图书馆个性化检索算法设计完成。
2 实验分析
2.1 实验环境设计
在此次研究中完成了基于主题偏好的数字图书馆个性化检索算法的设计部分,在此环节中将对文中设计方法的计算效果进行分析。在此次研究中主要使用算例对比的方式,使用文中设计方法与文献[5]基于大数据分析技术的数字图书馆信息检索模型(传统方法1) 和文献[6]基于递归神经网络与注意力机制的动态个性化搜索算法(传统方法2) 进行对比。
通过文献研究可知,在数字图书馆中含有大量的图书数据,且外界因素会对检索结果造成一定的影响,因此,将实验平台设定如表1。
通过上述参数组建此次实验平台,并将其应用到文中设计方法与传统方法的对比过程中。由于数字图书馆的运行过程中涉及大量的网络控制部分,因此,将实验平台搭建为Hadoop分布式平台的形式,以此提升实验对比过程中的运算效果。在此实验网络共计4个节点,节点设备参数设定如表2。
将实验平台安装至此实验网络中,为实验过程提供硬件与技术支持。
2.2 实验方案设计
在此次实验过程中,将对数字图书馆中的300名用户在为期1年内的操作日记进行分析,并使用文中设计方法与传统方法对其主题喜好进行挖掘,并将此部分数据使用到个性化检索中。为了对文中设计方法与传统方法的使用效果进行全面细致的对比,将实验对比指标划分为3部分,首先为DCG指标,此指标主要表示文中设计方法与传统方法在个性化检索过程中的质量,通过检索结果的误差率表示。其次为个性化检索有效性,通过检索结果的弹出率表示。最后一组指标设定为检索结果输出时间,通过此指标验证文中设计方法与传统方法在使用中的计算速度。此次实验中,对上述指标共进行周期为50次的对比实验,具体实验结果将通过数据与图像的形式输出。
2.3 检索结果误差率实验结果分析
通过上述实验结果可知,在使用文中设计方法后得到的检索结果误差率较低,可达到用户的检索精度要求。传统方法在使用后得到的检测结果误差率较高,无法达到用户的检索精度要求。同时,通过对上述实验结果进行系统分析可以看出,文中设计方法的检索精准度较高,是由于在检索过程中,文中设计方法将用户的主题偏好作为搜索的主要约束条件,以此保证检索结果符合用户的搜索精度要求。传统方法在使用过程中,仅根据用户输入内容进行检索,所得到检索结果与用户的预计检索结果具有一定差异,由此造成了使用传统方法进行检索后,结果误差率较高的问题。因此,在日后的研究中,应将用户主题偏好以及用户喜好聚类作为研究的重点,以提升检索方法的使用效果。