基于时空注意力机制的用户兴趣预测

作者: 刘宁

基于时空注意力机制的用户兴趣预测0

摘要:随着个性化推荐的不断发展,用户兴趣的快速捕捉和预测成为推荐领域重要研究热点之一。目前,用户时空行为兴趣预测研究主要集中于利用时间和空间信息挖掘用户偏好。然而,用户的行为模式通常具有时空规律性,挖掘用户相邻访问行为之间时空差距能够更有效地表征用户兴趣。因此,文章提出一种基于时空注意力机制的用户兴趣预测方法STAM,该方法通过双层时空注意力机制来捕捉时空间隔对用户兴趣的影响,第一层自注意力机制融合时空间隔信息,考虑用户历史访问记录内部的时空关联性,第二层注意力机制从访问地点类别集合中匹配代表性信息。为验证STAM的有效性,文章在Foursquare、Gowalla和Brightkite数据集上进行实验,结果表明,STAM能有效提升用户兴趣预测准确度,相较最佳基准方法Distance2Pre平均提升2.18%。

关键词:时空行为;注意力机制;兴趣预测;时空注意力

中图分类号:TP391.41 文献标识码:A

文章编号:1009-3044(2024)31-0062-03

开放科学(资源服务)标识码(OSID) :

0 引言

近年来,随着信息通信技术及其相关应用的快速发展,社交网络数据、移动通信数据等不同来源的呈现出时间和位置属性的时空数据迅速膨胀,对人们的生活产生了巨大影响[1]。在不同的时空背景下,大量信息的涌入使得对用户行为进行准确分析和预测变得迫切。为了应对这种情况,个性化分析和预测正在从基于同构的单一化的数据方式转向基于多源的异构的多维信息的混合方式[2]。越来越多的用户倾向于通过基于位置的社交网络分享内容,如Foursquare、Facebook、Places等[3],由此产生了海量的用户时空行为数据,推动了用户兴趣预测研究向多源异构的多维信息混合方式的发展。

在实际生活中除了时间信息,用户的行为中还包含大量的空间信息,目前结合用户行为中时间和空间信息的研究有:Liu等人[4]提出一种时空循环神经网络(Spatial Temporal Recurrent Neural Networks,简称STRNN),使用每两次连续访问之间的时间和空间间隔作为显式信息来提高模型的性能。Zhang等人[5]提出了时空门控网络(Spatio-Temporal Gated Network,简称STGN) 通过引入时空门来捕获连续签到之间的时空关系。

2020年,Chen等人[6]提出一种深度学习网络,把乘客需求以空间图的形式建模,通过由Conv LSTM组成的编码器-解码器框架以端到端的方式学习数据中的时空特性。Wu等人[7]提出具有异构信息的统一模型UMHI(Unified Model with Heterogeneous Informa⁃tion,简称UMHI) ,通过用户产生的足迹来学习高度复杂的空间和时间属性之间的交互作用。2021 年,Huang等人[8]提出基于注意力机制的时空长短期记忆网络(Attention Spatio Temporal LSTM,简称ATSTLSTM),通过注意力机制选择性地利用时空上下文信息,在签到序列中突出相关历史签到信息。Luo等人[9]提出基于时空注意网络的位置推荐方法,允许在非相邻位置和非连续签到之间的点对点交互作用,具有明确的时空效应。2022年,Islam等人[10]根据不同的深度学习范式对兴趣预测模型进行了分类,捕捉用户的时间偏好和内在兴趣。

综上,本文针对用户行为存在时效性以及空间就近性,提出一种基于时空注意力机制的用户兴趣预测方法(Spatio-Temporal Attention Mechanism-basedUser Interest Prediction,简称为STAM),该方法通过双层时空注意力考虑时空间隔差异对用户兴趣所造成的影响,第一层自注意力机制融合时空间隔自动聚合各种输入的相关性,考虑用户历史访问记录内部的时空信息之间的交互作用,第二层注意力机制从访问地点对应的类别集合中匹配代表性的访问地点信息。在3个真实数据集上进行了仿真实验,并与现有的其他用户兴趣预测方法进行比较,结果表明,本文所提方法能有效提升用户兴趣预测准确度,平均提升了2.18%。

1 提出的方法

1.1 STAM

图1展示了本文提出的STAM模型总体结构图,其结构主要由4个部分构成:输入层、嵌入层、时空注意力层和输出层。其中,嵌入层主要是对用户访问记录信息(u_id 与l_id) 、时空间隔信息(wt ij 与wl ij) 进行处理嵌入密集的特征向量中,分别生成用户信息嵌入矩阵、时间关系嵌入矩阵和空间关系嵌入矩阵。时空注意力层由第一层自注意力机制Self-attention和第二层注意力机制Attention组成,主要用来处理时空间隔信息特征。最后通过全连接层实现用户兴趣预测。

1.2 时空间隔嵌入

本文通过设置2个关系矩阵W T 和W L 对用户的时间信息和空间信息进行建模,用于捕获用户访问记录之间的时间间隔和空间间隔对用户兴趣的影响,在训练时,将时间间隔和空间地理距离建模为两个访问地点之间明确的时空关系,用户相邻两次访问记录之间的时间间隔wt ij 由其历史访问记录与邻近访问记录的时间差得到,表示为| t | i - tj ,用户访问记录的空间间隔wl ij 由用户历史访问记录与相邻的下一个访问记录的距离相减得到,空间间隔wl ij 利用Haversine距离函数进行计算,其公式如下所示。

式中:lati,loni,latj 与lonj 分别为第i次和第j次访问记录的经纬度值,la 和lb分别为经度差和纬度差,r为地球的半径,wl ij为空间间隔差值。

具体来说,用户访问记录的时间关系矩阵W T 和用户访问记录的空间关系矩阵W L表示如下:

在计算时空间隔真实差值的基础上,将时间间隔wt ij 与空间间隔wl ij 分别与一个单位嵌入向量et 和el 相乘得到时空信息的嵌入表示E (W T )和E (W L )。

eT ij = wt ij × et (5)

eL ij = wl ij × el (6)

1.3 时空注意力机制

自注意力机制是一种变体的注意力机制,其特长在于获取数据特征深层次的关联[11]。本文首先通过自注意力机制考虑全局又聚焦重点的特别之处来聚合用户历史访问记录内部的时空相关性,为历史访问记录内的每次访问分配不同的权重。

给定用户ui 非零填充的信息嵌入矩阵E (ui )和时空间隔嵌入矩阵E (W Ti )和E (W Li ),该层首先将嵌入矩阵经过不同的参数矩阵Wq,Wk,Wv 进行线性转换,之后将其输入一个注意力层,采用scaled dot-product at⁃tention(缩放点积注意力)评分函数计算注意力分布权重,得到一个新序列A(ui ):

式中:Att 表示缩放点积注意力,q 表示查询,k 表示键,v 表示值,Wq,Wk,Wv 分别表示对应的查询矩阵,键矩阵以及值矩阵。s 表示缩放点积注意力分布函数,由于注意力层计算所有值的加权和,尺度因子d是为了避免内积的值过大,特别是当维数较高时。其次,在融合时空间隔考虑用户历史访问记录内部时空相关性更新记录表示A(ui )的基础上,本文根据给定的访问地点集合L 的嵌入表示EL = {E } l 1,El 2,...,ElL ,通过时空注意力机制自顶向下的选择机制来过滤无用的信息,为不同的访问记录分配不同的权重,从而挑选可以描述用户兴趣的代表性访问地点信息。首先计算注意力分数a,然后使用soft max函数进行归一化计算注意力权重得分α,计算公式如下:

式中:a(A(ui ),EL )为注意力分数,采用scaled dotproductattention(缩放点积注意力)作为注意力评分函数,通过soft max归一化得到注意力权重α,相应的权重α 衡量了第i 条历史访问记录与下一条访问记录的匹配程度。

2 实验结果与分析

2.1 数据集

本文针对Foursquare[12]、Gowalla[13]和Brightkite[13]3 个公开的真实数据集进行仿真实验。首先以Four⁃square数据集为例,对其中的访问记录数据进行详细说明。此外,为验证不同方法的实验效果,本文将数据集中80%作为训练集,10%作为验证集,剩下10% 作为测试集。

1) Foursquare。

实验数据集为从Foursquare原始数据集中导出的子集,其时间范围为2012年11月12日到2013年1月10日,其中每名用户的访问记录序列长度不小于20,时间跨度涉及的范围不少于10天,访问地点总类别共有14种,子类别包含149种。

首先在Foursquare数据集上对用户历史访问进行数据分析,发现用户的访问偏好受到时间和情境的影响。在实验过程中,以149种访问地点子类别为兴趣类别进行用户兴趣预测。

2) Gowalla与Brightkite。

实验数据集为从Gowalla和Brightkite原始数据集中导出的子集,Gowalla中用户访问记录时间涉及从2009年2月到2010年4月,由2107个用户和48 450条访问记录组成;Brightkite原始数据集则由2316个用户从2008年11月到2009年7月的56 084条用户访问记录组成。在Gowalla和Brightkite数据集上进行分析用户历史访问记录中蕴含的时空信息特点,发现用户在不同时间与不同情境下可能会呈现出不同的访问偏好,在大多情况下用户的访问模式会随时间而变化。

2.2 评价指标

本文采用两种常用的衡量指标,即准确率(Accu⁃racy@k,简称ACC@k) 和召回率(Recall@k,简称R@k) ,其中,k表示最后得到的按概率值排序的预测列表中返回前k个结果。ACC@k的值越高,表示模型的整体预测效果越好。R@k是衡量预测列表中结果排名的标准,考虑了预测精准度和相对顺序[14]。ACC@k和R@k的计算公式如下所示:

式中:L (ui )表示在测试集中用户ui 访问过的地点记录所对应的类别,L͂(ui )则表示用户ui 未访问过的地点类别,P (ui ) 表示预测列表中返回的前k 个类别,C (l)表示总访问地点类别。

2.3 仿真实验结果

对STAM模型与PRME-G模型[15]、FPMC模型[16]以及Distance2Pre模型[17]3种基准模型进行比较,证明其相比其他方法具有更好的预测性能。其中,PRME-G 模型利用度量嵌入技术对用户序列信息建模,在调整用户空间偏好时将地理距离设置为权重;FPMC模型建模用户访问序列时,通过马尔科夫链结合用户的地理位置限制进行兴趣预测。

为了保证实验数据的准确和客观,将每个模型在同一训练和测试数据集上分别运行5次,得到ACC@5、ACC@10、R@5以及R@10作为模型评价指标值,最终各模型在3组数据集上所得到的实验结果对比分别如表1、表2和表3所示。

从表1~表3可以看出,对比所有基准模型,在3 组数据集上的实验结果表明,结合了用户距离偏好和序列信息的Distance2Pre 模型为效果最好的基准模型。同时,通过STAM与其他基准模型总体比较,体现了STAM的优势,说明充分考虑利用时间信息、空间信息进行用户兴趣预测的重要性,同时也说明考虑用户连续访问的两条记录之间的时空转移信息能够更准确地表征用户的兴趣。在测试集上的平均效果表明,所提模型STAM在三组数据集上对应的ACC@5、R@5、ACC@10以及R@10四个评价指标值相比最好的基准模型Distance2Pre,其效果分别相对提升了1.85%、0.91%、2.5%、2.03%。该结果说明本文所提方法STAM更细粒度地考虑用户两次访问记录之间的时间间隔和空间间隔,能够更准确地表征用户的兴趣。

上一篇 点击页面呼出菜单 下一篇