混合推荐算法在电商相关领域的应用研究

作者: 黄玉盛 祝迎春

混合推荐算法在电商相关领域的应用研究0

摘要:随着5G移动通信技术、虚拟现实和增强现实等技术的应用与普及,电商相关领域中传统的单一推荐算法在应对日益增长的结构与非结构数据、多源数据的融合和用户需求多样等方面逐渐显露出不足之处。结合电商相关领域的现有特点与难点来进行推荐算法的选择和优化改进,混合推荐算法应运而生。首先,分析了传统单个基于二部图网络的、基于知识图谱的和基于神经网络推荐算法的特征和优缺点;其次,总结梳理了以上三种类型的混合推荐算法在电商相关领域的研究现状;最后,指出混合推荐算法在电商相关领域应用中遇到的困境、不足和未来应用研究方向,以期为混合推荐算法在电商相关领域的深入应用提供有力支持。

关键词:混合推荐算法;电商相关领域;二部图网络;知识图谱;神经网络

中图分类号:TP391.3      文献标识码:A

文章编号:1009-3044(2023)34-0004-05

开放科学(资源服务)标识码(OSID) :

0 引言

近年来,随着互联网技术的快速发展、疫情影响和线下门店成本高等原因,电商直播凭借互动性强、投入成本低和用户观看粘性强等特点,让持续低迷的传统电商相关领域重新燃起了“战火”,一跃成为蓬勃发展的行业。在国家相关电商相关领域政策的加持下,电商直播成为新的电商热点。与此同时,电商相关领域也面临着一个重要的挑战,即消费者往往难以从众多商品中选择到最适合自己的商品,以实现精准地推荐商品,这也是行业上俗称的“信息过载”,而个性化推荐被认为是解决信息过载问题的最有效方法之一。

个性化推荐算法已在各个行业得到广泛应用,尤其是在电商领域发展迅速,如在提升用户体验、增加销量等方面展现出巨大潜力。研究表明个性化推荐算法帮助电商平台推荐的产品更符合个体用户的需求、喜好,从而提升购买体验。传统的商品推荐算法往往只考虑了用户的历史行为,忽略了其他因素对用户行为的影响,导致推荐的结果缺乏个性化和多样性。针对电商相关领域的特性和推荐难题,混合推荐算法结合多种算法的优点,综合考虑多种因素对用户行为的影响,使推荐结果更加准确、个性化和多样化。本文针对混合推荐算法在电商相关领域中的应用研究进行梳理和总结,对已有的推荐算法模型、特点和应用优势进行探讨,进一步梳理分析电商相关领域中混合推荐算法应用遇到的问题,以及解决这些问题的方法和探讨未来发展方向。

1 个性化推荐算法

随着互联网技术的持续进步,信息技术领域出现了许多通过计算机传输信息的应用形式,如电子邮件、个人网站和在线论坛等。用户很难在众多的数据中精确而快速地获取满足自身需求的内容,迫切需要一种技术能够帮助自己精准地获取信息。1992年施乐公司的Goldberg等人提出一种融合协同过滤思想的推荐系统,并将其用于垃圾邮件过滤。2001年Amazon最早将推荐系统引入电商相关领域平台,并带来销售额的大幅度提升,产生了“啤酒与尿不湿”的著名案例。2006年,Netflix在其网站上举办了一个推荐算法竞赛,目的是鼓励研究人员发现更好的算法来提升Netflix的推荐效果。竞赛吸引了来自世界各地的研究人员,推动了推荐算法的发展。随着在线平台的广泛应用和电子商务的快速发展,推荐系统的普及程度迅速提高,推动了针对书籍、电影、服装等领域的特定推荐系统的成长。

目前,随着“短视频平台+直播”成为流量吸引的风口,以及第五代移动通信技术、虚拟现实以及增强现实等技术的进一步发展,能够增强互动性,使内容展示更加丰富,这将成为未来电子商务的新常态。个性化推荐算法的优化升级已成为必然趋势,不仅可以向用户提供精准且多样化的推荐服务,还有助于进一步缩短电商相关平台与用户之间的距离。因此,需要深入研究个性化推荐算法,并不断加强理论和实际的联系,为用户提供良好应用体验。通过对现有的推荐算法进行梳理分析,本文对基于二部图网络的、基于知识图谱的和基于神经网络的推荐算法进行介绍。

1.1 基于二部图网络的推荐算法

基于二部图的推荐算法是Aggarwal于1999年率先提出的,其特点将用户与物品看作二部图网络中的节点,且可以用一个无权无向的二部网络G(U,O,E)表示。该二部网络的功能是描述用户和物品之间的关系的,其中U、O和E分别为用户集、物品集和用户行为的集合。其主要思想是通过用户和物品之间的选择关系建立用户-物品的二部图模型,然后利用资源分配等算法为用户提供个性化的推荐[1]。例如协同过滤算法(Collaborative Filtering,CF) 、质量扩散算法(Mass Diffusion,MD) 和热传导算法(Heat Conduction,HC) 。

CF算法是最早、最流行且应用最广泛的推荐算法,其基本思想是“物以类聚,人以群分”的群体智慧理念。简单来说,利用与目标用户有相同兴趣和爱好的用户的偏好来进行推荐。其主要分为两类:基于用户的协同过滤(User-based CollaboratIve Filtering,UCF) 和基于物品的协同过滤(Item-based Collaborative Filtering,ICF) ,这两种算法的区别在于计算相似度矩阵的参考对象不同。UCF是以用户为中心,计算用户之间的相似度。ICF是以物品为中心,计算物品与物品之间的相似性,通过寻找目标用户购买过的类似物品并推荐给用户。在计算用户与用户或物品与物品之间的相似性矩阵时,常用的相似性计算方法有余弦相似度和Jaccard相似系数。

CF算法在实践中被广泛使用,具有良好的推荐效果。其优点是具有推荐准确度高、良好的扩展性且不需要物品的特征属性,完全依靠用户的行为数据。然而,由于其完全依赖用户行为数据,导致冷启动问题(新产品或新用户没有足够的行为数据)和因用户行为稀疏而导致的相似度矩阵稀疏。

MD算法采用了物质流动的思想。将初始能量给目标用户选择的物品节点,然后根据物品选择关系将物品节点的能量平均分配给选择了该物品的用户节点,再根据用户节点的能量除以用户节点的度的规则,将用户节点上的能量传回物品节点。经过两次能量的传递,每个物品节点上都有相应的能量。HC算法与MD算法类似。两者都给被目标用户选中的物品节点分配一个初始能量,但能量传递时的规则和资源分配方法不同。

基于二部图的推荐算法是一种常见的推荐算法,它将用户和物品看作两个独立的节点集合,通过构建二部图模型来预测用户对物品的评分和偏好,可以不受推荐类型的限制,而且鲁棒性强、算法易实现且计算过程不复杂等优点。由于其过于依赖用户与物品的选择关系,即用户的行为数据,因此无法很好地解决冷启动和数据稀疏等问题。

1.2 基于知识图谱的推荐算法

2012年,谷歌公司提出了“知识图谱”(Knowledge Graph) 的概念,其初衷是以更智能的形式展现搜索引擎的返回结果,提升用户体验。知识图谱是一种解释实体之间关系的语义网络,以结构化的三元组形式描述现实世界中的事物及其相互关系,已广泛应用于语义搜索、问答、推荐和文本理解与生成等方面。<雷军,创办,小米>是一个知识三元组,“雷军”“小米”是现实世界中的两个实体,在知识图谱中表现为两个节点,“创办”是它们两个之间的关系。知识图谱中的节点和边是多对多的关系,该特点使得知识图谱中的三元组不仅可以表示实体之间的关系,也可以存储知识实体的属性。

根据应用知识图谱的不同形式,分为基于嵌入的方法、基于路径的方法和混合的方法。基于嵌入的知识图谱核心思想是利用知识表示模型学习到知识图谱中实体以及关系的向量表示,并通过这种带有语义信息的向量表示去扩充原有的用户与物品的交互信息,进而提高推荐性能[2]。基于路径的知识图谱核心思想是通过挖掘知识图谱中用户以及物品之间的路径关系来探索知识图谱实体间的连通性去完成推荐[3]。混合的方法是指将基于嵌入的方法和基于路径的方法结合起来,以提高知识图谱的构建效率和准确性。基于嵌入的方法通常能够捕获实体和关系的潜在语义信息,而基于路径的方法则能够利用知识图谱中的结构信息。混合方法试图结合这两种信息,从而获得更为准确和鲁棒的知识图谱表示。因此,引入知识图谱可以为推荐系统带来三个方面的好处,一是缓解用户行为的稀疏性;二是丰富的物品属性,从而学习到更全面的物品表示,提升推荐的准确性;三是利用知识图谱的语义关系,给出推荐的原因,使推荐结果具有可解释性。目前,基于知识图谱的推荐算法研究仍面临一些挑战:一是如何有效建模知识图谱的复杂结构特征;二是如何捕捉知识图谱多跳复杂推理路径中的语义;三是如何将外部知识有效注入推荐模型中;四是如何处理跨领域知识的推荐;五是如何处理海量知识图谱的推理和计算。

1.3 基于神经网络的推荐算法

神经网络是一种由多个神经元节点相互连接而成的计算模型,其基本原理是对输入数据的非线性变换来提取特征,通过多层的全连接层将这些特征进行建模和学习,挖掘用户的兴趣和偏好特征,根据这些特征进行个性化推荐。同时,神经网络可以处理复杂和动态的推荐任务,并具有良好的泛化能力。常见的神经网络结构包括深度神经网络(Deep Neural Network,DNN) 、卷积神经网络(Convolutional Neural Network,CNN) 和循环神经网络(Recurrent Neural Network,RNN) 等。DNN将用户和物品的多种特征(如文本、图像、点击历史等)融合到一个统一的稠密向量中,这有助于捕捉用户和物品之间的复杂交互关系,从而获取用户的特定兴趣提高推荐的相关性。CNN通过卷积层和池化层来提取数据的空间和时间特征,再通过全连接层进行分类或预测。卷积层通过局部连接和权重共享的方式,有效地捕捉输入数据中的局部模式和特征,而池化层则用于减小特征图的尺寸,并保留关键的特征。CNN能够自动学习图像的特征表示,具有平移不变性和局部连接性等特点,能够处理大规模的图像数据集,提高分类和检测的准确性。因此,其在图像分类、目标检测和图像生成等任务中表现出色。RNN通过引入循环结构,能够处理可变长度的序列数据,并且能够捕捉序列中的长期依赖关系。因此,其在许多序列处理任务中都有广泛的应用,如语言模型、机器翻译、语音识别、时间序列预测等领域。RNN的每个时间步的隐藏状态会根据输入和前一个时间步的隐藏状态进行更新,从而实现信息的传递和保存,并通过学习隐藏状态的演化过程,实现对时间序列数据进行建模和预测。而深度学习作为神经网络的一个分支,它使用多层神经网络来学习数据的深层次特征,由于其强大的建模能力和灵活性,已经在许多领域取得了显著的成果,包括语音识别、图像处理和自然语言处理等。

基于神经网络的推荐算法的架构通常由三层组成:输入层、隐藏层和输出层。输入层将用户在一组物品上的历史行为作为输入,如评级、点击或购买。隐蔽层负责处理这些信息并学习数据中的基本模式。输出层为每个物品产生一个预测的评级,用于为用户产生推荐。

神经元定义如下:

[y=fi=0n-1wixi+b]

公式中,计算输入[xi]和权重[wi]的加权和[wixi](也成为激活值)。此外,[xi]是输入数据的数值或其他神经元的输出(如果神经元是神经网络中的一部分)。权重[wi]是表示输入强度或神经元之间连接强度的数值,权重b是一个称为偏置的特殊值,其输入始终为1。使用加权和的结果作为激活函数f的输入,激活函数也成为传递函数。激活函数有很多类型,但都必须满足非线性这一必要条件,如Sigmoid函数、Tanh函数和ReLu函数等。

1.4 混合推荐算法

为了解决推荐系统中准确性-多样性不能同时兼顾、数据稀疏和冷启动等问题,众多的混合算法应运而生。这些算法采用多种推荐算法相互融合的方式,以达到最优的推荐效果。根据多种推荐算法的混合方式,分为加权式、变换式和合并式。其中,加权式是指分配给推荐算法不同的权重,将推荐结果进行加权混合,得到最终的推荐列表,且权重不唯一,会随着推荐结果或应用场景等有所调整。变换式是指根据不同的应用场景,使用不同的推荐算法,如由UCF切换到ICF。合并式将多个推荐算法的推荐列表合并成一个大的推荐列表推荐给用户,由用户自行选择,使大的推荐列表更具有多样性。混合推荐系统的核心思想与集成学习算法类似,通过整合多个推荐算法,充分利用各个算法的优势,可以显著降低系统性误差(方差),提升推荐系统的综合性能。随着技术的不断进步和推荐场景的多样化,混合推荐算法将继续发展,并在实际应用中发挥更大的作用。

上一篇 点击页面呼出菜单 下一篇