高校人才培养分析的数据挖掘系统设计与实现

作者: 周日辉

高校人才培养分析的数据挖掘系统设计与实现0

摘要:当前,数据挖掘技术已广泛应用于经济社会的各个领域。在教育领域,许多机构和学者开展了大量的应用研究。文章分析了数据挖掘系统的技术原理和挖掘引擎的应用方法,探讨了面向高校人才培养分析的挖掘需求。基于软件工程方法,文章设计并实现了相应的数据挖掘系统,并对其进行了实用性测试。

关键词:数据挖掘;人才培养分析;挖掘引擎;Weka;软件工程;高校教育

中图分类号:TP311 文献标识码:A

文章编号:1009-3044(2025)02-0067-04 开放科学(资源服务) 标识码(OSID) :

1 数据挖掘系统概述

数据挖掘建立在数据仓库[1]等数据集合技术之上,是人工智能领域中知识发现的重要过程。数据挖掘涵盖的技术范畴,或者说实现类型,主要包括预测建模、关联分析[2]、聚类分析以及异常检测等。其技术流程包括准备阶段、数据预处理、数据挖掘和分析评估四大阶段[3]。

搭建数据挖掘系统的主要框架结构包含数据层、业务层以及表示层三层。数据层中的各类数据存储库作为数据的来源,或是已经经过处理的数据集合,是数据挖掘的前提;在业务层中,数据库与数据仓库服务器接受用户指令,响应相关请求,从数据存储点提取适当数据;知识库[4]存储相关范畴的知识系统,对数据查询与结果形式的热度进行导向与评价,其存储内容包括用于将属性或属性集划分为各个理念层的概念分层,以及描述评估模式反应热度的用户信念知识;数据挖掘引擎作为数据挖掘系统的关键部分,是一系列功能子模块的集合,用于执行数据挖掘的基本功能,包括聚类分析、分类分析、模型预测、异常分析和关联分析等;模式评估模块基于用户热度的度量,与数据挖掘引擎模块交互,通过指定的高热度模式或设定的热度阈值过滤和指导数据搜索,并对结果模式进行评估;表示层的用户界面是使用者与系统模块交互的平台,用于将结果模式以不同形式进行可视化展示。

2 Weka 数据挖掘引擎

Weka[5](怀卡托智能分析环境) 平台是由新西兰怀卡托大学研发的一款基于Java的机器学习软件套件。用户可以直接使用Weka自带的平台界面完成数据挖掘工作,平台几乎囊括了当前所有流行的数据挖掘模型和算法,提供了解决数据挖掘问题的五大标准方法,包括回归、分类、聚类、关联规则以及属性选择。同时,Weka支持加载开发者自行开发的扩展包(Ex⁃tension Packages) ,用户也可以利用Weka提供的API 进行二次开发,搭建数据挖掘引擎[6],以满足特殊挖掘需求,构建个性化数据挖掘系统。本文即基于Weka 源代码开发目标系统的数据挖掘引擎。

Weka平台支持两种形式作为输入数据:第一种是直接读取数据库表;第二种是“ARFF(Attribute-Relation File Format,属性关系文件格式) ”格式的文件。ARFF文件是一种ASCII文本文件,由两部分组成。第一部分是头信息(Head information) ,包含关系的声明和属性的声明。数据集中的每个属性都有对应的“@attribute”语句,用于定义其名称及类型。Weka支持的属性数据类型包括四种:“numeric”(数值型) 、“nominal-specification”(分类型) 、“string”(字符串型) 和“date[]”(日期和时间型) 。第二部分是数据信息(Data information) ,从“@data”标记开始,包含数据集中给出的具体数据。

3 系统的挖掘需求分析

3.1 功能性需求

为适应高等教育规模发展和信息技术的进步,大多数高校已建立了人才培养分析系统。这些系统通常以教务系统、学籍管理系统等形式存在,在一定程度上方便了学生管理和成长轨迹记录,并提升了学校办学质量和教学管理水平。在这些系统中,学生的成绩数据处于一个重要位置。学生的成绩既是衡量教学质量的重要指标之一,更能直观地反映学生的学习效果。通过挖掘成绩数据背后的隐藏模式,有助于分析学生的学习情况及调整教学策略。

数据挖掘系统利用关联分析算法进行数据挖掘工作,首先提供用户选择准备数据的功能。为确保通过挖掘算法最终能够提取出有利用价值的模式信息,系统通过界面提供用户选择有效条件,从数据库中获取成绩数据,此有效条件主要从数量及质量上体现;然后能够实现对准备数据的预处理。预处理的主要工作是将成绩数据从分数值(连续型数据) 转化为离散型数据[7],并通过界面展示预处理结果;最后,对预处理结果数据进行关联规则挖掘,界面展示挖掘出的成绩数据中的强关联规则[8],并确认是否存档。

系统对于已存档于数据库中的强关联规则基础库可进行二次利用,实现根据学生现有的成绩状态进行预测,预测后续的成绩状态,从而规避劣势课程成绩的发生;或者根据现有成绩状态进行溯因,查找可能导致此状态的原因(前成绩状态) ,从而方便教学人员调整教学顺序或策略。

3.2 关键用例分析

在软件工程的需求分析阶段,通过用例分析从用户的角度描述系统功能。本数据挖掘系统包含较多用例,难以针对每个用例都详细描述,现选择了系统中几个关键用例进行分析,用例规约见表1至表3。表1描述数据预处理用例,在进行成绩关联挖掘分析过程中,在得到准备数据之后进行预处理,以方便进一步关联挖掘的过程。表2描述关联挖掘用例,即在对准备数据预处理结束后,对预处理结果文件进行关联挖掘,以补充强关联规则基础库的过程。表3描述成绩预测及溯因用例,即用户通过某一学科成绩情况,查询系统的强关联规则基础库,系统反馈与成绩情况相关的关联规则。

4 系统的数据挖掘功能实现

4.1 关联挖掘分析功能

本数据挖掘系统的核心功能是基于关联规则挖掘的成绩分析,对系统中已存档管理的学院学生成绩数据进行关联挖掘分析。该功能旨在探索各项成绩之间的关系和规律,为高校人才培养提供指导性建议。

通过应用实例对系统功能进行测试,首先测试成绩关联挖掘分析模块。实例中,数据挖掘的数据样本选取学院“学前教育”专业三年制2021年级全体188 名学生在校三年的所有成绩数据。成绩类型包括所有的素质成绩(如各学期的学生干部工作评价、各学期的素质积分) 、所有的发展能力成绩(如毕业论文成绩、实习成绩、见习成绩、毕业汇报作品成绩) ,以及学科成绩中剔除“选修课”类型(主要原因是学生的选修科目各不相同,与其他成绩构成关联的意义不大) 。每位学生的成绩项共有75项。原始数据的格式及数据部分节选如表4所示。

确定数据样本后,对样本进行离散化操作,设定成绩等级数”为“5”,即各等级代表的分数段为“A”[90,100]、“B”[80,90)、“C”[70,80)、“D”[60,70)、“E”[0,60);同时将“单科目等级数阈值”设为“3”(去掉成绩只有两个等级的科目) 。数据离散化操作完成后,生成ARFF文件,为数据挖掘做好准备。由于成绩数据的特性较为显著,在进行关联挖掘分析时,需要测试不同参数的设定对最终挖掘结果的影响。经过多次测试,最终将参数设定控制在较合理的范围内。通过系统的挖掘分析,得到的具体结果中部分关联规则在界面中展示,如图1所示。

以下对部分挖掘结果进行解析。例如,关联挖掘结果的第5条规则显示,“学生干部工作评价5”的成绩范围为D[60,70),同时“学前儿童语言教育1”的成绩范围为B[80,90),“思想道德修养与法律基础2”的成绩范围为B[80,90),会导致“幼儿教师口语2”的成绩范围为B[80,90)。这条关联规则的置信度超过设置的置信度阈值0.8,规则的提升度值为1.01,意味着前面3科成绩的情况对“幼儿教师口语2”成绩为“B”有较积极的正面影响。第6 条规则的提升度值为1.01,表明“幼儿游戏理论与设计”成绩范围为C[70,80)对“幼儿教师口语2”成绩范围为B[80,90)同样有积极的正面影响。

按照此方法解读所得到的挖掘结果,最终将所有挖掘结果存档至数据库,形成关联规则基础库。结合实际教学业务经验,可以将挖掘结果灵活应用于实际教学策略的调整中。

4.2 学生成绩预测及溯因功能

学生成绩预测及溯因功能是通过对不同数据样本进行关联分析,生成关联规则基础库后,将当前成绩情况作为查询条件检索基础库中的关联规则。系统检索并列举前件或后件符合当前成绩情况的关联规则,以展示可能导致当前成绩情况的因素,或预测可能导致未来成绩情况的因素,从而帮助学生或教师合理调整学习方法或教学方法。

第一个实例以科目“视唱练耳2”成绩为“60”作为检索条件,对该成绩进行关联规则预测操作,以了解该科目的成绩情况是否影响将来的学习。系统反馈的检索信息如图2所示。对系统反馈结果进行解析,结果显示的关联规则参数属性中,第二条和第四条结果的提升度值(lift) 均大于1,均为1.01,表明这些规则是较有意义的信息。其中,第四条信息显示“视唱练耳2”的成绩范围为(60,70) 会积极正面地影响到“学前儿童语言教育1”和“幼儿教师口语2”的成绩范围为(80,90) 。前者属于中下水平的成绩,后者属于中上水平的成绩,可以考虑两者在教学时间或教学策略上是否存在冲突的地方。第二条信息的解读与此类似。第一条和第三条信息显示关联规则的提升度值(lift) 不大于1,其意义可以结合实际教学情况进行进一步评价和判断。

第二个实例选取学号为“14123130106”的学生的成绩情况。通过成绩查询获悉,该生科目“幼儿教师口语2”的成绩为“80”。以此成绩项作为检索条件,对该成绩进行溯因操作,系统反馈的部分检索信息如图3所示。

系统反馈结果显示,相关的关联规则较多,其中提升度值大于1的规则比例也不小,说明正面影响该科目成绩为“80”分的因素较多。例如,第38条规则显示,“形体与幼儿舞蹈2”成绩范围在(80,90) 是一个较有意义的原因,该规则的提升度值为1.0。这表明这两个科目的成绩同时较为优秀可能存在潜在的关联,且两个科目在教学上可能具有共同辅助的作用。此外,第39条规则显示“学前儿童语言教育1”成绩范围在(80,90) ,第40条规则显示“视唱练耳2”成绩范围在(60,70) ,第42条和第43条规则显示“美术与手工2”和“国画”成绩范围在(80,90) 。

尤其值得注意的是,第36、37、39、44条规则显示“学生干部工作评价2、4、5”的成绩均为(60,70) ,即刚及格,这些因素也对测试科目及其成绩产生了正面影响。

5 结束语

综上所述,本文基于软件工程方法构建了面向高校人才培养分析的数据挖掘系统。该系统能够有效挖掘教育数据背后的潜在模式,为高校人才培养方案的制定和实施提供了有力的数据支持,并为进一步构建完整的基于数据挖掘技术的高校学生教务管理综合平台的研究奠定了坚实基础。

参考文献:

[1] 赵蓉英,余波.国际数据挖掘研究热点与前沿可视化分析[J].现代情报,2018,38(6):128-137.

[2] 李忠,安建琴,刘海军,等.关联挖掘算法及发展趋势[J].智能计算机与应用,2017,7(5):22-25.

[3] 李强.数据挖掘中关联分析算法研究[D].哈尔滨:哈尔滨工程大学,2010.

[4] 周宇,欧石燕.面向关联数据的高校机构知识库构建方法研究[J].图书情报工作,2016,60(1):105-113.

[5] ENGEL T A,CHARÃO A S,KIRSCH-PINHEIRO M,et al.Per⁃formance improvement of data mining in weka through GPU ac⁃celeration[J].Procedia Computer Science,2014,32:93-100.

[6] 李秋香. 基于聚类算法和关联规则算法的学生考试成绩数据挖掘研究[J]. 电脑编程技巧与维护, 2024(7): 78-81.

[7] 赵峰,刘博妍.基于改进Apriori算法的大学生成绩关联分析[J].齐齐哈尔大学学报(自然科学版),2018,34(1):11-15.

[8] GAYATHIRI P,POORNA B.Effective gene patterned associa⁃tion rule hiding algorithm for privacy preserving data mining ontransactional database[J]. Cybernetics and Information Tech⁃nologies,2017,17(3):92-108.

【通联编辑:唐一东】

基金项目:2024 年度茂名市科技计划项目,项目名称:大专师范生教育实践中关联挖掘技术的应用探究(项目编号2024415)

上一篇 点击页面呼出菜单 下一篇