采用置信度约束模型的改进协同过滤推荐算法

作者: 马永波 彭玉

采用置信度约束模型的改进协同过滤推荐算法0

关键词:协同过滤;约束模型;信任度;逆最近邻

中图分类号:TP391 文献标识码:A

文章编号:1009-3044(2024)21-0021-03

0 引言

随着互联网技术的发展和广泛应用,信息资源量的增长速度远远超出了我们处理信息的能力,存在大量的冗余信息,干扰了用户的选择,而且大多数用户没有足够的历史记录。这就带来了两个问题:1) 用户在网上浏览时很难获得自己的优质资源;2) 数字资源提供商很难向用户推荐合适的资源。随着搜索和检索技术的发展,这些问题得到缓解,但用户的偏好存在较大差异,这些解决方案仍然无法为获取用户的优质资源提供有效的帮助[1]。针对上述问题,推荐系统应运而生。推荐系统的主要目标是通过基于用户历史记录的推荐算法帮助用户找到个性化偏好。多年来,各种方法被开发用来产生个性化推荐,一般来说,它们可以分为两类:1) 基于内容的推荐算法[2],它通过使用数学模型和数据挖掘对用户历史偏好进行建模以获得预测;2) 协同过滤算法[3],它通过基于相似用户的评分历史集合来过滤不相关的项目以获得用户的偏好。这些方法使推荐技术取得了巨大进步,但仍然遇到许多问题,例如基于内容的方法中用户兴趣的单一性[2],以及协同过滤推荐系统中的稀疏问题和冷启动问题[4]。

冷启动问题可以分为两个方面,用户冷启动和项目冷启动,我们以第一个为例,它描述了数字信息系统中的新项目,而这些项目的用户历史行为记录很少。在这种情况下,推荐系统通常无法做出高质量的推荐[4]。数据集的稀疏性是基于协同过滤的推荐系统的另一个众所周知的缺点,因为大多数用户没有对足够的项目进行评分,因此用户对项目的历史偏好记录非常稀疏,推荐系统可以使用的信息非常不足。这直接导致推荐者无法区分用户的偏好。为了解决这些问题,近年来人们提出了许多方法。例如,有人提出了一种基于影响集的协同过滤,并定义了一种新的预测计算方法。还有人通过使用基于神经网络学习的优化提出了一种加权相似性度量,该度量超过了当前度量所获得的最佳结果。Wei S等人[5]使用K-Means 聚类将项目聚类到不同的类中,并引入重叠因子来优化用户之间局部相似性的准确性。

几乎所有这些方法都是基于资源的原始发展趋势或基于最近邻的偏好来进行用户预测。由于数据的稀疏性,可用的数据不足,单凭这些数据而不考虑用户历史记录所反映的信任影响,这些方法在面对冷启动问题和稀疏性时仍然无法达到令人满意的预测结果。本文提出了一种基于逆最近邻信任度约束模型的改进协同过滤算法。首先,该方法通过行为相似度计算方法得到最近邻和逆最近邻,并根据邻居偏好和用户预测偏好之间的差异计算正负信任度,然后约束既是最近邻居又是逆最近邻居的用户和热门项目。最后,采用加权预测计算算法来计算用于获得推荐的最终评分。

1 基于逆最近邻信任度约束模型的用户偏好导出算法

我们算法的主要思想是找到信任和逆最近邻的适当组合,以便所有信息都能够有助于预测。在传统的协同过滤算法中,他们会根据历史记录生成一个包含用户-项目评分的p × q 二维矩阵M ,该矩阵包括一个用户集U = {U1,U2...Un } 和一个项目集I = { I1,I2...Im },矩阵中的数据代表用户对相应项目的偏好评分。

1.1 用户行为相似度度量方法

基于用户-项目评分矩阵,主流偏好计算算法的第一步是计算用户之间的相似度,它会得到每个用户的最近邻居,例如,用户Ux 的最近邻居U{U1,U2,...UNNx = k }, Ux 与UNNx中用户的相似度按降序排列,k的值取决于推荐系统。如果Ixy 表示同时具有用户Ux和Uy 的行为记录的项目集合,则常见的相似度度量方法如下:

2.3 实验结果及分析

通过调节评分相似度和信任度组合的权重因子α来对比推荐精度MAE的值。在本实验中我们将测试参数α 取不同值对推荐精度MAE值的影响。α∈[0,1],α 的值从0 开始,每次增加0.1,纵坐标为推荐精度MAE的值,观察纵坐标MAE值的变化,并将本文提出算法和“基于用户的CF” 以及“基于信任的CF”作对比,发现当参数α 取值为0.6时推荐效果最佳。

本文改进算法与其他协同过滤算法的比较:

本实验的目的是将改进后的算法与传统的协同过滤算法以及近期业界领先的研究进行比较。我们使用相同的实验数据来比较所提出的算法与"基于上下文的协同过滤算法“(Context-based CF)”“基于信任的协同过滤算法”(Trust-based CF)以及文献[6]中的“有效缺失数据预测”(EMDP)方法在推荐精度上的差异。在本实验中,参数α = 0.6,且“最近邻数量”在[10, 60]区间内。实验结果如图2所示,根据实验结果显示,通过与“ 基于上下文的协同过滤”“基于信任的协同过滤”和“EMDP”相比较,本文提出的方法可以获得更低的平均绝对误差(MAE)值,因此推荐效果更好。随着产品“最近邻数量”的增加,预测的质量也在提升。

3 结论

在本文中,我们重点研究推荐方法,以解决现有方法的预测精度经常受到数据集稀疏影响的问题。提出一种基于逆最近邻信任度约束模型的改进协同过滤算法。该方法首先通过行为相似度算法得到最近邻和逆最近邻,根据邻居偏好和用户预测偏好的差异计算出正负信任度,然后对用户进行约束。最后,采用加权预测计算算法来计算用于获得推荐的最终评分。在非常稀疏的数据集上进行的实验表明,我们的预测可以达到更好的预测精度。我们未来的工作将集中在上下文感知推荐系统上,以实现更高的推荐准确性。

经典小说推荐

杂志订阅