基于学习者画像的个性化资源推荐系统研究
作者: 冯余佳 孙厚举 余德
摘要:随着教育信息化的不断深入发展,涌现了海量的在线学习资源,文章提出了基于学习者画像的在线学习资源个性化推荐模型,主要由数据收集处理、学习者画像构建、个性化资源推荐及反馈调整四个层面构成,并在此基础上,介绍了系统模块及实验设计方法。基于学习者画像进行的个性化学习资源推荐,提升了推荐内容的精准度,满足了学习者获取个性化学习资源的需求,推动后疫情时代教育领域发展。
关键词:学习者画像;在线学习资源;学习分析;个性化;推荐系统
中图分类号:TP311 文献标识码:A
文章编号:1009-3044(2024)31-0012-03
开放科学(资源服务)标识码(OSID)
0 引言
随着信息技术的迅猛发展和互联网的广泛应用,我国教育模式逐渐从传统教育向智慧教育转变,在线学习逐渐成为一种重要的学习方式。近年来,“互联网+教育”发展理念的提出促使在线学习资源呈爆炸式增长,为学习者提供了丰富的知识来源,然而,面对庞大且复杂多样的资源,学习者如何快速找到符合需求的学习材料成为一个挑战。此外,每位学习者的知识背景、学习兴趣和学习目标都各不相同,这使得传统的“一刀切”式推荐方法很难满足个性化需求。因此,如何精准高效地为学习者推荐合适的学习资源,确保其在短时间内实现学习收益最大化,成为当前在线教育领域亟待解决的问题。为此,在线学习资源个性化推荐系统应运而生,其目的在于通过智能技术,为每位学习者提供最合适的学习资源,量身打造最佳的学习路径,从而提升学习效果。
传统的学习资源推荐系统大多是面向所有学习者,根据学习资源的标签、关键词等信息,采用简单直接的匹配规则进行推荐,然而,这种推荐方式未考虑学习者的知识结构层次及学习兴趣的迁移,忽视了学习者的个体差异和学习需求的多样性,无法提供学习资源的个性化推荐。基于学习者画像的在线学习资源个性化推荐系统通过收集分析学习者个人信息、学习行为、知识背景、学习进度、知识掌握程度以及兴趣爱好等数据,挖掘学习者的个性化特征,精确定位薄弱知识点,从而实施多模态学习评价并及时提供个性化的教学指导。个性化推荐系统的应用可以摆脱传统教学时空上的限制,满足了学习者移动、泛在、终身、差异化学习的学习需求,提高了推荐的准确度以及学习者的学习兴趣和动力,帮助他们实现学习收益的最大化,进而促进在线教学质量的提升[1]。
1 基于学习者画像的在线学习资源个性化推荐模型构建
学习者画像构建是在线学习资源个性化推荐模型的根基,首先须收集学习者基本属性信息、学习偏好信息、学习行为过程等数据,其次对这些数据进行分析处理,赋予数字化标签[2]。通过画像挖掘出学习者学习风格、认知水平,动态获取个性化学习需求,从而将适合的资源推送给学习者,提高推荐结果的准确性与可解释性。
基于学习者画像的在线学习资源个性化推荐模型如图1所示,主要分为数据收集处理层、学习者画像构建层、个性化资源推荐层和反馈调整层。
1.1 数据收集处理
数据收集处理层是在线学习资源个性化推荐系统的基石,其功能主要集中在获取、整合和存储各类与学习相关的数据,并将原始数据经过多重处理后转化为供推荐算法使用的高质量数据集。为确保推荐内容的多样性与相关性,实现精准推荐,该层需收集多维度数据,如用户的登录日志、浏览路径、资源点击率、学习时长、互动行为等信息以及学习资源的元数据,如资源类别、出版日期、作者、关键词、难度级别等,进而生成初始数据集。随后,对收集到的原始数据进行预处理、转化和特征提取,为后续的推荐算法层提供优质、结构化的输入数据[3]。为提高数据收集效率,通常采用分布式爬虫等技术进行大数据采集,而在数据安全性方面,实施严格的权限控制和数据加密机制,确保用户隐私和数据完整性。随着大数据技术的发展,还需考虑数据的扩展性、持久性和实时性,以支撑推荐系统在海量数据环境下的高效运行。
数据处理涉及缺失值处理、异常值检测、重复值删除、数据转换及规范化等操作,运用数据集成技术如ETL(Extract、Transform、Load) ,对来自不同数据源的信息进行统一格式化并整合,以保证数据质量和一致性。首先进行数据清洗工作,此阶段的核心是特征工程,通过主成分分析(PCA) 、时间序列分析、词频-逆文档频率(TF-IDF) 等方法,将高维、复杂的原始数据转化为有意义的特征向量。经过多重数据处理操作后,原始数据被转化为供推荐算法使用的高质量数据集,为实现精准、个性化的推荐结果奠定坚实基础。
1.2 学习者画像构建
教育领域推荐算法的发展较电子商务等其他领域更加缓慢,且学习资源的复杂度更高,具有较强的针对性和专业性,个性化推荐效果不理想,因此本文引入学习者画像来解决此问题,将学习者画像与在线学习资源推荐相结合,使得最后的推荐结果更加符合学习者的学习需求和兴趣偏好。
学习者画像源自“用户画像”,由Alan Cooper提出,对用户全貌进行刻画,将用户基本属性、行为特征等进行语义化的标签表示,帮助企业实现精准化服务[4]。随着人工智能、大数据等技术在教育领域的逐步深入,用户画像被引入教育领域[5]。学习者画像是对学习者个体特征、学习行为、学习成果等多方面信息的综合刻画,这些信息包括但不限于学习者的年龄、性别、地域、教育背景、学习动机、学习风格等。通过对学习者画像的构建,可以对学习者进行分类和标注,从而给用户推荐具有相同分类及相关标注的学习资源。肖君等从学习者基本特征、学习行为特征、学习路径等三个维度构建了高风险学习者画像[6]。王春华以目标为导向开展基于学习者画像的精准教学干预研究,实现数据资源的筛选与整合[7]。王莉莉等提出基于学习者画像的个性化课程推荐方法,构建了包含学习者基础数据分析、行为数据分析和文本情感分析三个维度的学习者画像特征模型[8]。本研究从基本信息、行为数据、知识掌握水平及学习情绪四个维度对学习者画像进行构建,应用统计分析、机器学习等技术抽取标签形成学习者画像库。
1.3 个性化资源推荐
个性化学习资源推荐算法主要分为基于内容推荐、协同过滤推荐、基于关联规则推荐以及混合推荐算法。基于内容推荐算法是传统过滤技术的延伸,根据用户过去的行为和兴趣,为用户推荐具有相似内容特征的项目,该算法主要适用于文本资源,特征提取有限,推荐内容较为大众化,不能挖掘用户新兴趣。协同过滤推荐算法是目前最流行的推荐算法,分为基于用户(User-based) 的协同过滤算法和基于项目(Item-based) 的协同过滤算法,主要是分析与目标用户相似的用户,找出与目标用户相似的用户群组,将相似用户偏好的学习资源、学习路径等推荐给目标用户[9]。基于规则的推荐算法是通过已制定好的相关规则对用户进行推荐,规则的数量和质量决定了推荐效果[10]。混合推荐算法则是将两种或多种算法相结合,避免单个算法的缺点,充分利用用户的行为数据和项目内容数据,提高推荐算法的准确性和覆盖率[11]。
然而,随着网络规模的扩大,用户行为数据和项目内容数据的获取与处理变得越来越困难,用户兴趣和需求的变化也更为频繁,如何实时更新推荐结果以满足用户不断变化的需求是一项重要任务。为了解决实际应用中存在的问题,研究者们将社交网络分析、深度学习、迁移学习等技术用以不断优化和改进算法,以满足用户不断变化的需求,为用户提供更精准、更个性化的学习资源推荐。
在教育领域,由于相同专业背景的学习者倾向于学习同类学习资源,具有很强的聚类效应,本研究利用聚类算法对学习资源进行分类整合,并通过协同过滤算法分析学习者之间的相似度,找到具有相似兴趣爱好的学习者,综合考虑学习者的基本信息、专业背景和课程热度等因素,生成初始推荐候选集,进而根据学习者画像进行再筛选,确定最终的推荐列表。
1.4 反馈调整
学习者的需求和偏好是动态变化的,推荐系统应具备实时更新和调整推荐结果的能力,在短时间内准确地捕捉这些变化,综合学习者的历史学习数据、评价反馈信息等,对推荐结果进行实时调整,以适应学习者不断变化的需求。
反馈调整层在推荐系统中充当关键的调控器,主要任务是捕捉学习者对推荐内容的反应,包括点击、收藏、分享、评分、评论等,并根据这些反馈数据实时优化推荐算法和模型,提高个性化推荐的准确性和满意度[12]。基于此,该层引入多种评估指标,如点击率(CTR) 、平均准确率(MAP) 和归一化折损累计增益(NDCG) ,以客观量化推荐效果。
2 系统模块与实验设计
2.1 系统模块设计
基于学习者画像的在线学习资源个性化推荐系统主要可分为学习者管理、学习资源管理、个性化推荐管理等三大模块[13-14],如图2所示。学习者管理模块主要负责学习者基本信息、学习行为、学习情绪及知识掌握情况的管理与分析,学习者基础信息包括学习者的年龄、专业、性别、兴趣爱好、知识水平等,学习行为包括学习者的浏览、收藏、分享、讨论、作业等行为信息。学习资源管理模块主要是管理者对资源的增、删、改、查,以及资源的分类、下载、搜索、详情设置等。个性化推荐管理模块主要是对学习资源、学习路径、学习同伴的推荐,高效精准地为学习者推荐合适的学习资源,提高其学习兴趣,满足其个性化需求。
2.2 实验设计
实验数据集的选择至关重要,对实验结果的准确性和可信度具有重要影响。可采用名为“EdNet”的权威数据集,这是由人工智能导学系统Santa收集的大规模分层学生活动数据集,包含近80万名学生的上亿个交互信息,是迄今为止发布的最大公共交互教育系统数据集[15]。EdNet数据集适用于教育领域深度学习和推荐系统的研究,不仅提供了基本的用户-资源交互信息,还融合了丰富的用户特征、行为模式和学习资源元数据。其中,用户行为数据记录了诸如视频观看、题目作答、论坛参与等细粒度的互动行为,对于理解学习者的学习轨迹和习惯具有重要意义。EdNet还包含了学习资源的各种属性,如题目难度、课程类别、知识点等,涵盖了从初级到高级的各种课程内容,囊括了学习的各个阶段。除此之外,还有例如来自在线教育网站Junyi Academy 的数据集Junyi,是除EdNet 外数据量最多的开源数据集,以及来自ASSISTMENTS 在线辅导系统的ASSIST(2009、2012、2015、2017) 数据集,分别包含了学习者在不同问题上相应数量集的交互行为,最多的达到254万多个交互。这些丰富多样的数据集支撑本研究进行深入细致的探索并为在线学习资源个性化推荐系统的构建提供了有力的支持。
为确保推荐系统的效果及可行性,采用组合式的实验方法策略。首先,模拟真实环境中的用户行为,对数据集进行数据抽样和再现,构建模拟实验环境。基于该环境,采用简单交叉验证方法对数据进行分割,其中80%的数据作为训练集,20%的数据作为测试集,并采用准确率(Accuracy) 、召回率(Recall) 、F1值以及均方误差(MSE) 等多种评价指标量化推荐效果,客观地反映推荐系统的性能。此外,运用随机实验和准实验法、问卷调查法或采集学习过程数据进而建立因果模型等方法对系统有效性进行更全面、更科学的评估验证。
3 总结与展望
通过对系统架构、功能描述、模块设计和实验数据及方法的全面分析,本研究设计了一个具有高准确性的个性化推荐系统,为推动个性化教育和提高学习资源利用效率提供了有力支撑,提升了学习者的学习效果和学习体验。
未来教育必定朝着个性化、多样化、智能化、集成化、协同化的方向发展,促进学习者个性发展将成为后疫情时代教育领域的重要命题与教学新范式。然而,作为重要工具的个性化推荐系统的实现并非一蹴而就,需结合多种技术手段和领域知识,不断进行优化和完善。因此,对于在线教育领域的研究者和开发者来说,如何有效融合多模态信息,进一步提高推荐系统的智能化和个性化程度,以满足学习者的多样化需求,仍是一个值得深入探讨的课题,此外,随着隐私保护和数据安全问题的日益重视,如何在确保用户隐私的前提下提供高质量的推荐服务,将是推荐系统领域面临的重要挑战。