基于图卷积神经网络的大学生学习资源推荐系统

作者: 杨再盛

基于图卷积神经网络的大学生学习资源推荐系统0

关键词:图卷积神经网络;学生分类;资源推荐

0 引言

随着教育事业的快速发展,科学有效地提高高校的教学质量,有针对性地培养社会需要的各类人才是高校面临的一个重要课题。高职教育在培养应用型和技能型人才方面发挥着重要作用。随着信息技术的发展,基于图卷积神经网络(GCN) 的学生分类[2]和资源推荐系统在高职教育中得到广泛应用。利用大数据技术,通过全面细致的数据分析和深度学习,一方面可以帮助高校教师更好地了解学生的特点和情况,对学生实施行之有效的个性化教育和培养,完善教学管理方法,提升工作能力,另一方面也有利于学校清晰地了解当前在校学生的实际情况和学校教育管理中存在的问题,为学生创造一个更优越的学习环境,完善学校的教学管理制度和规定[3]。本文献综述旨在概述这一领域的最新研究,强调GCN在高职教育中的潜在应用以及研究现状。

1 图卷积神经网络介绍

在介绍高职教育中图卷积神经网络(GCN) [4]的应用之前,需要理解卷积神经网络(CNN) 的基本原理。卷积神经网络是一种深度学习模型,特别适用于图像处理和模式识别。它包含卷积层、池化层和全连接层,通过层次化的特征提取和学习,能够高效地处理复杂数据。卷积神经网络最早由Fukushima提出,其基本结构由输入层、卷积层、池化层、全连接层和输出层构成。随后,YannLeCun等人基于Fukushima的研究工作,使用BP算法设计并训练了CNN(该模型称为LeNet-5) ,用于手写数字图片的识别分类。LeNet-5是经典的CNN结构,后续有许多工作基于此进行改进,它在一些模式识别领域中取得了良好的分类效果。

图卷积神经网络在处理图这类非欧氏数据时具有明显的优势。普通的卷积神经网(ConvolutionalNeural Network, CNN) 在处理图像这类欧氏数据时,利用它们平移不变性的特点,通过卷积核来提取原始数据的特征。但图类数据具有不规则性,所以传统的CNN 无法处理这类非欧氏数据。图卷积神经网络GCN通过图上的傅里叶变换和卷积定理定义了谱域上的卷积核,然后通过一阶切比雪夫多项式近似来减少计算量,最后定义了图卷积。Gilmer等人提出的统一框架 MPNN将图卷积神经网络分为消息传递和读出两个阶段。针对节点级的任务,大部分图卷积神经网络可以由信息传递阶段的聚合邻居信息和更新状态信息两步来概括:第一步,每个节点通过某种方式聚集邻居节点传递的特征信息;第二步,每个节点按照某种方法,根据自身的特征信息和邻居节点信息来更新自己的特征信息。最后将得到的信息进行非线性映射,增强模型的表达能力。

2 高职教育的挑战与机遇

在新时代新形势下,我国高职教育面临着许多挑战和机遇,高职教育的重要性与紧迫性不言而喻。在注重高素质技术技能人才培养的当今,高职院校承担起了重要的社会责任,肩负起向国家基层一线培养高学历、高素质的专业技术技能型人才,真正实现教育数字化以及数字化教育,从而推动社会信息化趋势的发展。

在信息时代,高职教育领域也不可避免地受到数字化和智能化的影响。学校和教育机构积累了大量学生数据,这些数据涵盖了学生的学术成绩、学习行为、兴趣爱好等方面。然而,仅仅积累这些数据远远不够,如何从这些数据中挖掘出有价值的信息,为学生和教师提供更有效的教学和学习方案,成为一个亟待解决的问题。随着信息技术特别是大数据、人工智能[5]、深度学习等的高速发展,移动终端应用已经成为人们日常生活中不可分割的一部分,移动终端应用为高职教育高质量发展提供了新的机遇,同时也带来了新的挑战。传统课堂教学模式及理念受移动教育类应用的强烈冲击,尤其是教学理念与“互联网+教育”概念的不断推广和影响,新型的移动教学模式也发生了明显的变化和完善,随之大量的教育类App也应运而生,诸如“网易云课堂”“流利阅读”等。纵观这些教育类App会发现,这些教育类App大部分都是线上教学模式,即教师用户与学生用户仅在线上交流互动。因此,如何应用这些App产生的学生行为数据进行具体分析,是目前教育改革的一个重要方向,即教育数字化。

3 系统基本功能结构

在线教育平台通常包括以下功能:用户参与学习,教师通过平台针对内容的性质创建对应的班级,用户根据自己的喜好学习不同课程,用户订阅其他老师发布的内容。在线教育用户分类即通过用户自身的属性、学习课程,学习行为数据,预测出他们的学习方向。

在线教育中的每个大学生用户都可以视为一个节点,用户之间的关系可以视为节点之间的边,因此其用户分类即可视为图中的节点分类。由用户和用户之间的关系构成的关系数据结构是一个典型的图数据结构,如何有效地利用节点的属性信息以及网络的结构信息对节点进行分类是一个关键的问题。另外,在在线教育用户分类的应用场景中,图类数据集具有低同质率的特点。图中的同质性指的是任意两个相邻节点的相似性,即如果它们的标签相同,则两个节点相似。同质率即是标签相同的邻居节点对占所有邻居节点对的比例,同质率的高低决定了图是同质的还是异质的。基于随机游走的方法在对图类数据进行节点分类时取得了好的效果,Bpero⁃zzi等人提出的DeepWalk[6]是一种学习网络中节点隐表达式的算法,它通过随机游走获取网络中的节点序列,再利用Word2Vec 的思想将节点变为低维向量,最后用于分类。但是,DeepWalk存在几处不足之处,一是它仅利用了图的结构信息但没有使用节点的属性信息,二是它的游走是一种均匀的游走,不适合处理同质率较低的图数据集。为了解决DeepWalk只能随机采样的缺陷,Grover等人提出了在随机游走时采用有偏策略的Node2Vec,通过p、q两个超参数来控制访问节点的顺序是偏向于深度优先还是广度优先。该方法虽然能够在一定程度上控制随机游走的有偏性,但仍然存在没有利用节点自身属性信息的缺陷。

4 基于图卷积神经网络的大学生学习资源推荐系统

如今,国外的Google、Yahoo等平台都开始研发自己的推荐系统,而国内的抖音、快手、网易新闻、腾讯新闻等公司也都推出了各自的推荐系统。然而,推荐系统仍然面临许多问题,包括推荐精度、冷启动[7]、数据稀疏、推荐多样性等一系列挑战。尽管协同过滤、关联规则、深度神经网络等方法的应用使得推荐系统取得了一定进步,但有些模型却忽视了具有共同兴趣用户之间的相似性,导致高阶图卷积后的信息高度相似。此外,传统图卷积神经网络在初始化图结构嵌入时往往没有考虑到应用场景,只是简单地进行随机初始化嵌入表示。

然而,随着线上教育的常态化,网络学习的范围发生了巨大变化,尤其是在疫情爆发之后,线上教育有效地解决了传统教育受时间和空间限制影响的问题。移动互联网的高质量快速发展使得网络学习备受青睐。然而,面对海量的网络学习资源,人们往往难以有效地进行选择,学习资源的繁多使得逐一辨别变得困难,尤其对于初学者更是如此。因此,如何精准有效地为大学生推荐符合其学习广度和深度的学习资源,成为一个备受关注的研究课题。

为解决以上问题,本研究提出了大数据环境下基于GCN的学生分类与资源推荐算法,有效弥补了基于GCN的大学生学习用户分类以及推荐算法在教育领域应用的不足。同时,采用前后端分离的体系结构,将应用部署到服务器上,设计实现了学生学习资源推荐系统,为大数据时代高校学生个性化教育提供了辅助支持,进一步提高高职教育的人才培养质量,推动我国现代化教育的高质量发展。具体实现过程或方法如下:

1) 数据收集与存储。数据源接入:通过网站埋点、移动应用SDK、日志收集等方式获取用户行为数据,包括点击、学习、作业、考试评分等。数据存储:将收集到的数据存储在适合大规模数据处理和分析的数据库中,例如关系型数据库(如MySQL) 、NoSQL数据库(如MongoDB、Cassandra) 或数据湖。

2) 数据预处理与特征工程。数据清洗,对原始数据进行清洗、去重和去噪,确保数据质量。特征提取,从用户行为数据中提取有意义的特征,包括用户特征(如年龄、性别、地区)、物品特征(如类别、标签)、行为特征(如点击次数、购买次数)等。3) 用户分类模块:分类算法,使用GCN神经网络将用户分成不同的类别或群组[8],以便更好地理解用户兴趣和行为。4) 推荐模块:个性化推荐算法,使用图卷积神经网络、协同过滤、内容推荐、深度学习模型等个性化推荐算法,根据用户所属的分类和其行为历史,为用户推荐合适的物品。实时推荐,对于实时推荐,可以使用流式处理技术(如Apache Kafka、Apache Flink) 来处理用户实时行为,及时更新推荐结果。5) 模型训练与优化:离线训练,周期性地使用历史数据对分类和推荐模型进行离线训练,更新模型参数和权重。在线实时训练,使用在线学习方法,根据新的用户行为数据实时更新模型,即不断采集数据导入数据,以提供更实时的推荐结果。6) 服务部署与调用:API服务,将训练好的分类和推荐模型部署为API服务,供前端应用或其他系统调用。分布式部署,使用容器技术(如Docker) 和容器编排工具(如Kubernetes) 来进行系统的弹性伸缩和高可用部署。7) 监测与评估:指标定义,设计合适的评估指标,衡量分类和推荐效果,如点击率、转化率、推荐准确度等。A/B测试,使用A/B测试等方法评估不同算法或模型的性能,优化系统效果。

系统搭建完成之后,通过比较可以发现,从最开始利用图卷积神经网络应用于事件提取,到将图卷积神经网络应用于阅读理解、文本生成和关系提取等任务上,图卷积神经网络实际上还有待改进的地方。传统GCN只能应用于转导(transductive) 任务,无法完成动态图处理(inductive) 。另外,由于傅里叶变换推导的局限性,难以处理有向图,并且在对于高阶邻接矩阵进行信息聚合时出现信息重叠覆盖的问题也难以处理。本研究通过对模型采取基于用户兴趣的子图分类,来缓解高阶邻接矩阵在进行信息聚合时出现的信息重叠覆盖问题,预期可以提高模型预测的精确度[9]。

5 总结

本文介绍了基于图卷积神经网络的分类和推荐算法的研究现状,对图卷积神经网络的概念和分类进行了介绍,但是图卷积神经网络在处理大规模图数据[10]仍然是一个挑战,因为需要计算节点之间的关系矩阵,这可能导致计算复杂性问题。在处理不完整的图数据以及缺失值是一个重要问题,特别是在推荐系统中。而图卷积神经网络等深度学习模型通常被认为是黑盒模型,如何解释其决策是一个亟待解决的问题。

总之,基于图卷积神经网络的分类和推荐算法在处理图数据的各个领域都具有广泛的应用前景。虽然仍面临一些挑战,但随着深度学习研究的不断发展,这些挑战有望得到克服,从而更好地应用于实际问题中。

上一篇 点击页面呼出菜单 下一篇