基于深度学习的自适应图自监督学习推荐算法研究

作者: 张粉粉

基于深度学习的自适应图自监督学习推荐算法研究0

摘要:随着推荐系统的发展,长尾问题也逐渐凸显。基于图结构的推荐算法通过挖掘用户与物品之间的间接联系来解决长尾问题。但是图的结构决定了推荐的优先度,与用户间接联系的长尾物品被推荐的优先度相对较低。图自监督学习推荐算法(SGL)通过添加图的随机扰动,提高了推荐系统的准确性和长尾物品推荐能力。而过多的历史数据会对推荐的准确性和长尾物品推荐性能造成负面影响。文章在SGL算法的基础上,将用户的个性化行为与图自监督学习相结合,解决在面对交互物品数量较多的用户时,推荐准确性和长尾物品推荐性能降低的问题。

关键词: 计算机系统结构; 推荐算法; 深度学习; 图自监督学习; 长尾问题

中图分类号:TP18 文献标识码:A

文章编号:1009-3044(2024)31-0031-03

开放科学(资源服务)标识码(OSID) :

1 问题提出

近年来,推荐系统已成功应用于许多在线服务,如电子商城、音乐推荐、短视频推荐和广告推荐等。通过相关算法将用户与物品更好地联系起来,这在一定程度上改善了用户体验。然而,推荐系统中的数据存在长尾分布,这一问题被称为推荐系统的长尾问题[1-2]。虽然基于图结构的推荐系统尝试向用户推荐与其间接联系的物品,但图的结构决定了推荐的优先度[3],在不改变图结构的情况下,与用户间接联系的物品相对于直接联系的物品,其被推荐的优先度较低。

图自监督学习推荐算法(SGL)[4]通过添加图形扰动,打破原始图结构,提升与用户存在间接联系的物品被推荐的优先度,从而探索用户对于长尾物品的兴趣。然而,该算法仍然遵循基于图结构推荐的约束条件:“在原始图中,与用户直接相连的物品预测值,应大于与用户间接相连的物品预测值。”因此,在面对具有大量历史交互数据的用户时,其推荐准确性和长尾物品推荐性能会受到一定程度的影响。

基于此,本文提出了一种用户自适应图自监督学习推荐算法(UA-SGL),旨在解决基于图结构的推荐系统在面对具有较多历史交互数据的用户时推荐准确性和长尾物品推荐性能降低的问题。

2 自适应图自监督学习推荐算法方法

由于SGL算法属于基于图结构的推荐算法,本身并未舍弃基于图结构推荐的约束条件,且在一定程度上已经改善了基于图结构推荐算法的长尾问题。因此,本文以SGL为例,分析了基于图结构推荐算法存在的问题及改进思路。主要分析用户历史行为与长尾物品兴趣挖掘之间的关系,并提出用户自适应图自监督学习推荐算法。该算法通过自适应学习不同用户和数据集的特点,以删除用户早期的历史交互物品信息。

在公开数据集上进行了实验,结果表明在推荐准确率和长尾物品推荐性能上,UA-SGL算法均优于图自监督学习推荐系统(SGL) 。

2.1 用户行为分析

2.1.1 用户历史行为分析与长尾兴趣挖掘

本文对所有用户的历史交互进行了统一比例的删除,验证了随着用户交互历史物品数据的减少,推荐系统的长尾推荐性能有所上升。然而,以往的方法是对全体用户统一减少相同比例的历史交互数据[5],但在真实推荐场景中,用户的个性化差异较大。对全体用户统一减少相同比例的历史交互物品数据,可能会降低推荐系统的准确性。

因此,如何衡量用户的个性化行为并据此进行历史数据删除,成为本文探索的方向。在同一数据集中,分析不同用户的长尾偏好率,综上所述,以上问题可总结为以下两点:1) 如何衡量用户个性化行为;2)用户个性化行为与删除用户历史交互数据之间的关系。

2.1.2 用户整体行为与长尾兴趣挖掘

在之前的实验中,仅通过统一删除一定比例的用户历史交互数据,即可提升推荐系统的长尾物品推荐率。虽然在Yelp2018 数据集上,推荐精确率(precision) 、召回率(recall) 和归一化折损累计增益(NDCG) 等指标与SGL 存在差距,但在amazon-book数据集上表现良好,在各项指标上均优于SGL模型。因此,本文试分析模型在不同数据集上效果存在差距的原因。

通过数据分析,笔者认为可能存在以下几个原因:1) 不同数据集中用户对于长尾物品或小众物品的偏好有所不同,对所有用户实行统一的历史交互数据舍弃,对偏好热门物品的用户来说是有一定损害的。2) amazon-book数据集的用户物品交互总数和平均用户物品交互数均远远大于Yelp2018,致使每个用户的物品交互数据对用户/物品节点向量表征的生成影响较小。而在Yelp中,由于用户物品交互数量较少,删除的用户物品交互数据可能会显著影响推荐系统的推荐准确性。值得注意的是,在这三个数据集上,用户对于长尾物品的偏好率基本符合正态分布。

2.2 用户自适应图自监督学习推荐方法

根据以上分析,可以明确本文对基于图结构的推荐算法的优化方向,具体可分为两个方面:1) 异常用户筛选。由于基于图结构的推荐算法在面对交互数量较多的用户时会出现性能降低,因此,将这些用户筛选出来,并削减他们的历史交互物品数量,使其保持在一个合理的范围,是一个重要的方法。2) 个性化行为保留。不同用户的行为偏好各不相同,有人是“热门物品爱好者”,而有人则是“小众物品偏好者”。由分析可知,保留的历史交互物品数量与推荐长尾物品率之间呈现反比,因此对于不同偏好的用户,应采用不同的保留比例。

2.2.1 异常用户筛选与个性化行为保留方法

1) 异常用户筛选:参考箱型图的定义方法,本文将“异常用户”定义为:其交互数量超过所有用户交互数量统计值的上四分位数(Q3) 1.5 倍四分位距离(IQR) 的用户(即箱型图中的异常值用户)。

2) 个性化行为保留:骆锦潍、刘杜钢等人[6-7]提出了匹配倾向得分算法,该算法用于推荐系统中的数据纠偏,以解决数据集偏差的问题。尽管这一方法的思想值得借鉴,本文根据其理念,提出了用户个性化倾向得分算法。

如公式(2) 所示,ratiou 为OUA-SGL根据“异常”用户的个性化行为分析保留的历史物品交互数量。其中pou 的计算方法来源于公式(1) ,Σi ∈ (u,i),i ∈ IpopularityYu,i 为用户u 历史交互的物品中,属于热门物品的数量,根据“长尾”的定义,此处将交互数量排名前20%的物品定义为热门物品。Σi ∈ (u,i)Yu,i 为用户u 与与物品的所有交互数量,pou 即为用户的“热门物品偏好”。为“异常”用户中,对于“热门物品”偏好最大的那个用户的“热门物品”偏好率,mean为所有用户交互物品数量的均值。Q3为上四分位数,IQR为四分位距离。ratiou即为“异常用户”的个性化保留物品数量。

2.2.2 用户自适应图自监督学习推荐算法

通过实施异常用户筛选和个性化行为保留的方法,可以开发出用户自适应的用户物品二部图生成优化方法。生成方法的总体流程如图1所示。

如图2所示,UA-SGL模型的整体架构示意图展示了其自适应架构的主要组成部分,具体分为2个部分:1)“ 异常用户”筛选;2) 个性化行为保留。

3 实验与结果分析

本文在3个实验数据集上进行了实验:Yelp2018[3,7],Amazon-book[7],gowalla[8]。结果如表1所示。

在这3 个公开数据集上进行的实验中,精确率(precision) 、召回率(recall) 、归一化折损累计增益(NDCG) 和平均长尾率均有显著提升,这验证了本文提出的用户自适应图自监督学习推荐算法(UA-SGL)对图自监督学习推荐系统(SGL) 性能提升的有效性。

4 结论

在互联网飞速发展的时代,数据信息呈指数性增长,各类音乐、影视和点评类网站及应用层出不穷。在纷繁冗杂的海量信息中,精准找到用户的兴趣和爱好,必将成为今后持续研究的重要课题。长期以来,以图结构为基础的推荐算法一方面过于注重对用户物品交互信息的挖掘,期望通过更多的信息构建更为精准的模型,例如,将用户属性、物品属性特征和物品评分信息等纳入图结构进行综合分析;另一方面,推荐系统往往仅通过用户与物品之间的连接信息来挖掘用户可能感兴趣的其他物品,以提高推荐的准确性和效率。为了克服这些问题,本文进一步提出了用户自适应图自监督学习推荐算法(UA-SGL) ,并通过实验设计对其有效性进行了验证与分析。

参考文献:

[1] 梁贻乐.面向长尾和冷启动物品的新颖性推荐方法研究[D].武汉:武汉大学,2021.

[2] 王永贵, 赵晓暄. 结合自监督学习的图神经网络会话推荐[J].计算机工程与应用, 2023, 59(3): 244-252.

[3] WU J C,WANG X,FENG F L,et al.Self-supervised graph learn⁃ing for recommendation[C]//Proceedings of the 44th Interna⁃tional ACM SIGIR Conference on Research and Development in Information Retrieval.Virtual Event Canada.ACM,2021:726-735.

[4] 韩涵, 黄训华, 常慧慧, 等. 心电领域中的自监督学习方法综述[J].计算机科学与探索, 2023, 17(8): 124-129.

[5] 骆锦潍, 于艳华. 基于图神经网络和自监督学习的会话推荐算法研究[J].计算机学报, 2022, 41(7): 1619-1647.

[6] 骆锦潍,刘杜钢,潘微科,等.基于改进的倾向得分估计的无偏推荐模型[J].计算机应用,2021,41(12):3508-3514.

[7] KORNBLITH S, NOROUZI M, LEE H, et al. A simple frame⁃work for contrastive learning of visual representations[C]//Pro⁃ceedings of the 37th International Conference on Machine Learning. PMLR, 2020: 1597-1607.

[8] WANG X,HE X N,WANG M,et al.Neural graph collaborative filtering[C]//Proceedings of the 42nd International ACM SIGIR Conference on Research and Development in Information Re⁃trieval.Paris France.ACM,2019:165-174.

【通联编辑:唐一东】

上一篇 点击页面呼出菜单 下一篇