基于教育数据挖掘的学习行为和学业成就分析

作者: 付玲毓 贾积有

基于教育数据挖掘的学习行为和学业成就分析0

[摘 要] 采用数据挖掘技术,对北京大学在Coursera平台开设的某门慕课的学习者行为数据进行深入分析。研究发现:总体而言,学员对课程任务的参与度高于讨论区。学员可以聚类为“杰出型”“浏览型”“消极型”三簇特征群体。在线时长、小测成绩、浏览网页频次等是影响完课学员最终成绩的关键因素。基于此,针对慕课教学设计提出若干建议,如:设置奖励机制以增强课程互动性、提供个性化的课程设置、调整小测的频次和难度以发挥小测的促学作用、增加课程笔记等功能来提高学员浏览网页的频率和效果等。这些措施有助于提高学员的学习效果和满意度,进而优化慕课教学。

[关键词] 教育数据挖掘;在线学习行为;学业成就;教育大数据;个性化教学

[中图分类号] G43   [文献标识码] A   [文章编号] 1005-4634(2024)05-0001-08

慕课,全称“大规模开放在线课程”(Massive Open Online Course,MOOC),是一种通过互联网向全球大量学生提供在线教育课程的教学模式。以Coursera为代表的诸多慕课平台提供了丰富多样的课程内容,也吸引了世界各地数量众多的学习者。但是,慕课普遍存在的问题是低完成率和高流失率 [1]。鉴于此,有必要深入分析学习者的学习行为,了解造成低完课率的原因,从而有针对性地提升课程质量,增强学生持续学习的动力。

教育数据挖掘是数据挖掘技术在教育领域的应用。数据挖掘功能包括描述性和预测性两大类,描述性挖掘任务刻画目标数据中数据的一般性质,预测性挖掘任务在当前数据上进行归纳,以便做出预测 [2]15-19。常见的描述性数据挖掘功能有聚类、关联规则挖掘、文本挖掘等;常见的预测性数据挖掘功能有分类与回归等。聚类将一个整体数据集分成多个类别,每一类中都包含相似的一簇数据,不同簇之间的相似度较低;分类主要处理分类型标记,根据数据特征将其归入不同的标签或类别;回归分析则是最常见的针对数值型变量的预测方法,通过建立回归模型,试图学习输入数据和输出之间的函数关系。

课题组选取了Coursera平台的一门大规模在线开放课程,借助数据挖掘技术,深入剖析了学生的在线学习行为数据。该课程的选课人数众多,学员来源广泛,具有代表性。其研究成果将对慕课教学的优化与提升产生深远影响,具有普遍的指导意义。课题组运用聚类分析方法,将学生划分为不同的学习群体,以便了解他们的学习特点和习惯;通过回归分析,课题组探究了影响学业成绩的关键因素。具体研究问题如下:(1) 这门慕课的学员总体完课和参与情况怎样?(2) 影响不同类型学习者的特征因素有哪些?(3) 影响完课学员最终成绩的因素有哪些?

1 研究现状

随着网络技术在教育领域的广泛应用,学习者在线学习行为和学业成效的关系成为教育技术领域的研究热点之一。近些年来,国内外已积累了一些研究结果。

慕课学业成绩影响因素的研究,历来备受关注。预测慕课中学员成绩的研究主要集中在慕课活动的频率上 [3]218-231。总体而言,慕课平台上的活跃用户展现出更为优异的学业表现。而关于学业成绩的相关指标,学者们普遍认为主要包括浏览观看的参与程度、任务完成的效率与质量,以及论坛讨论的活跃度3类。有研究发现:作为慕课学习的重要组成部分,视频观看与完课率呈正相关 [4]。除观看视频外,慕课通常要求学生完成测验和作业,才能取得最终成绩。学习者完成小测的次数与最终成绩正相关 [5]。相比浏览和作业,论坛活跃程度对成绩的预测作用则较弱且颇具争议。尽管有学者发现论坛发帖与慕课完成率正相关 [3]218-231,但也有学者得出相反的结论 [6]。

随着研究的细化,学者们逐渐关注具体学科门类的慕课成绩影响因素。如Martín-Monje 等对一门语言类慕课的学习者行为数据进行分析后发现:定期提交自动评分任务是预测课程成绩的可靠指标 [7]251-272。此外,大多数学习者是课程“观众”,他们更倾向于观看视频,较少完成其他课程任务,这也解释了慕课完课率普遍较低的原因。

国内慕课研究积极与国际接轨,也发表了数量可观的研究成果。魏顺平采用教育数据挖掘的方法,分析了Moodle平台某门在线学习课程的学习过程活动总体情况和特点,是国内较早的有关在线学习数据挖掘的研究 [8]。贾积有等以北京大学6门开设在Coursera平台的慕课为对象,分析了学员的上网行为及其对学业成绩的影响,是国内出现最早的针对慕课的数据挖掘研究 [9]23-29。陈兰岚和宋海虹使用数据统计和数据挖掘的方式,分别分析了Canvas Network平台的238门慕课课程的学习过程和成绩数据,虽然样本量多、数据量大,但数据分析局限在以描述性统计为主的层面 [10]。沈欣忆等建立了在线学习行为与在线学习绩效评估模型,并通过抽样逐步回归,发现学生的作业完成比例、视频完成率等行为对学习效果产生重要的正面影响 [11]1-8。此外,杨小丽和韩雷总结了近年来国外慕课研究的现状、特点和范式,并对国内相关研究提出了启示和建议 [12]75-79。国外国内的预测研究目前主要依赖于统计方法,更为先进的工具和手段还有待尝试。

以上研究都表明,基于教育数据挖掘的用户行为分析,有助于发现影响用户学业成绩的潜在规律,从而优化学习过程,促进教学效果的提升。然而,以往的研究在将描述性和预测性数据挖掘技术相结合方面鲜有突破,未能既充分关注到不同类别学习者的特征,又全面探讨慕课成绩的影响因素。基于这样的背景,课题组以北京大学某门在Coursera平台上开设的慕课课程为例,从平台提供的学员行为数据入手,探究影响学习者课业成绩的因素。课题组着眼于慕课完课率低的现实问题,为了给各类学习者提供个性化的教学建议,首先采用了先进的聚类算法,将学员划分为多个具有不同特征的簇群。随后针对已成功完成课程的学员,整合了目前研究者广泛关注的3大类学业成绩影响因素,深入探究了影响不同类别学习者成绩的具体原因。课题组将教育数据挖掘技术与学习分析相结合,希望为慕课课程的设计改进和个性化教学提供依据,从而提升学习效果。

2 研究设计

2.1 数据来源

从方便取样的角度出发,课题组选取了北京大学在Coursera平台开设的一门课程的数据作为分析样本。这门课程由北京大学一位经验丰富、深受欢迎的专家型教师主讲,注册学员人数众多且来源广泛,课程采用线上教学模式。经任课教师允许,课题组从Coursera平台获取了课程数据,主要包括:15 168名学员的人口统计数据(如年龄、性别、国籍等)、论坛数据(如发帖、回复、投票等)、成绩数据(小测成绩、课业最终成绩)、进度数据(学习者接触某一课程内容时刻的事件数据)等。出于研究伦理的考虑,课题组在提及课程时,不公布具体课程名称,而是以“某门慕课课程”来代替。

2.2 数据分析

课题组对原始数据进行了清洗和筛选预处理,删除了缺失值和异常值,并参考沈欣忆等 [11]3的研究,将该课程数据划分为学员基本信息、浏览信息、论坛参与、评估评价4部分。其中学员基本信息包含15 168名学员的注册时间、开始学习时间、在线时长。浏览信息包含观看视频频次、浏览网页频次、浏览讲义频次。论坛参与情况包含发帖和回帖次数、发帖和回帖得票、论坛声望指数等。评估评价则包含平时小测成绩及课业最终成绩。

数据分析首先使用SPSS(26.0)对数据进行描述性统计,计算每项学习活动指标的人均均值、标准差、获得该项指标的人数,以及其在所有学员中所占比例,描述各项指标的总体情况。然后使用WEKA(3.8.6)对全体学员数据进行聚类分析。WEKA是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis)的简称,是一个JAVA环境下开源机器学习和数据挖掘软件,提供了一系列的算法和工具,可以用于数据预处理、分类、回归、聚类、关联规则挖掘等任务。聚类分析采用同类研究中广泛使用的K-means算法,seed参数设为10,并调整K值直至SSE趋于稳定。最后,为探究影响学员最终成绩的因素,课题组按有无最终成绩将学员分成两类,先用SPSS软件对全体学员和完课学员的行为数据分别进行相关分析,再用WEKA 软件对完课学员的最终成绩进行预测分析。在预测分析阶段,先使用特征选择功能对特征进行排序,后采用回归算法构建在线学习成就评估模型,最后用神经网络算法验证特征选择和回归算法的结果。其中回归模型如下所示:

y=α+x1β1+x2β2+…+xiβi+ε

式中,α表示截距,x表示自变量,β表示自变量的参数,ε表示误差。

3 结果与讨论

3.1 学员总体完课和参与情况

课题组首先对各项学习活动指标进行了描述性统计分析,结果见表1。选修这门课程的学生共有15 168人,其中最后取得学业成绩的有1 620人,完课率为10.68%。课题组参考常规考试,将60分作为及格成绩的阈值 [9]25,那么在完课学员中,有581人取得高于(含)60分的学业成绩,及格率为35.86%。及格学员占全体学员的比例为3.83%。

该门慕课行为数据的描述性统计情况如表1所示。由于该平台日志仅记录了用户的登录时间,而缺乏退出行为记录,并且用户关闭浏览器时并不会自动记录退出时间,因此系统无法准确捕捉到用户在线学习的时间长度。鉴于此,课题组借鉴前人的做法 [9]25,参考常规教学时间来定义用户的在线学习时间,将最后一次登录课程网站的时间与注册时间之差视为在线时长。本课程的学员平均在线时长为29.13天。平时小测是检验学员阶段性学习效果的方式,约有四分之一的学员获得了小测成绩。浏览网页、观看视频、浏览讲义可帮助学生获取课程知识和重要信息,大部分学生都参与了这三类学习活动。Coursera还设置了课程讨论区,创设了师生交流互动的机会,学生可以通过发帖和回帖参与讨论,也可以对讨论区内的帖子进行投票,但学生在课程讨论区的参与度总体较低。

3.2 学员特征聚类

聚类分析是把相似的数据进行聚合处理,每个分类聚群成为一簇。为识别和描述不同学业成就慕课学习者的特征,并为预测最终成绩的分析提供参考依据,课题组使用WEKA软件对学习者行为数据进行聚类分析:选取在线时长等11项指标,采用K-means算法,将seed参数设为10。当K值设定为大于等于3时,SSE趋于稳定。因此,将学员聚类为3簇,误差平方和为573.72,最终聚类效果较好。聚类分析结果有助于区分完课学员、高分学员和低分学员,为个性化教学建议提供坚实的基础。同时,鉴于课题组重点关注的是学业成绩影响因素,因此,在可视化分析阶段,课题组将特别关注学员最终成绩与聚类结果之间的相互关系。

聚类分析的结果见表2。每个聚类的中心点的坐标值表示该类的数据对象在每个属性上的平均值,这些值有助于理解每类学习者的特征和区别。“杰出型”学习者的在线时长、小测成绩、浏览网页、观看视频、浏览讲义、最终成绩方面都明显高于其他类型学习者。这意味着这类学习者在这门课中投入度很高,付出很多时间精力和努力,从而取得较高的课业成绩,大多在及格分数以上。“浏览型”学习者的在线时长、观看视频、浏览讲义、小测成绩等指标都比较接近群体学员的均值。这可能表明这类学习者在慕课中的学习活动以浏览视频和讲义为主,对完成课程任务的兴趣不大,最终很可能并未取得课业成绩,或者只获得较低的分数。“消极型”学习者的在线时长、小测成绩、浏览网页、观看视频、浏览讲义、最终成绩等各项指标都低于全体学习者的均值。这说明“消极型”学习者在该门慕课中整体投入度较低,并未付出足够多的努力,最终很可能并未完成本课程全部学习内容,也并未取得课业成绩。这一点与前人研究结论相似,大多数的学习者是课程的“观众”,取得成绩并非其进行慕课学习的核心目标 [7]266。

上一篇: