数据挖掘在学科建设中的应用研究
作者: 李思
摘要:随着高校教学改革进程的加快,校园信息的积累越来越丰富,本文结合教学管理具体要求,通过设计学院某门课程的在线答疑建立的一个“随访信息库”,对在线答疑学生进行跟踪访问,记录在线答疑的数据,然后通过设计合适教学管理决策需求的数据仓库模型设计和数据处理方法,对“随访信息库”进行数据挖掘,建立了完备、正确、无冗余的教学管理系统数据仓库模型——一个有价值和指导意义的“学科建设指导库”。教师通过查询“学科建设指导库”中的信息资料,可以了解某门课中某个问题的解决方式、解决方法或解决方案,并结合教师自己的教学经验,形成解决问题的切实方案,最终达到便于教学经验的总结和提高教学质量的目的,对以后的教学改革方案的实施有重要的指导意义,为后期进行决策分析提供有效的支持和依据,从理论和实践上提供一套行之有效的方法,为高校全面进行数据仓库建设、数据挖掘研究与开发提供参考。
关键词:数据挖掘; 教改; 教学改革; 数据仓库模型; 数据仓库; 教学管理; 学科建设
中图分类号:TP 312.1 文献标识码:A 文章编号:1006-3315(2012)09-125-002
一、引言
数据挖掘技术作为一个多学科交叉的新兴学科,在研究领域等得到了越来越多的应用,尤其在需要进行信息分析的领域得到了十分广泛的应用。随着科学技术的飞速发展,如何提高高等学校教学质量,以适应新形式发展已成为一个刻不容缓的问题,而提高教学质量,改善教学环境则是改善高等教学的关键。高校教学管理中每天都会有海量数据产生,面对如此海量的数据,目前的教学管理系统只是做一些查询、更新、统计、打印报表等操作,并没有完全发挥信息技术的潜能,即没有从大量数据中挖掘所隐含的规律,从而应用这些规律去指导教师的日常工作。因此,如何利用数据挖掘技术从这些数据信息中发现有益的知识,利用信息化手段来为教师进行决策支持服务,提高教学质量以适应新形势发展,不但可以提高教师的教学水平,还可以带来更多的好处。
二、数据挖掘的相关知识
1.数据仓库
数据库系统作为数据管理手段,主要用于事物处理。在目前的计算机处理能力上,直接使用事务处理环境来支持决策是行不通的。近几年,随着数据库技术的应用和发展,人们尝试对数据库中的数据进行再加工,形成一个综合的、面向分析的环境,以更好地支持决策分析,数据仓库(Data Warehouse简称DW)正是为了构建这种新的分析处理环境而出现的一种数据存储和组织技术。数据仓库弥补了原有数据库的缺点,将原来以单一数据库为中心的数据环境发展为一种新环境:体系化环境。数据库要建立在一个较全面和完善的信息应用基础上,用于支持高层决策分析。
2.数据挖掘的概念
数据挖掘[1-2]是指从数据库中提取出隐含的人们事先未知的、潜在的有用信息和知识,所提取的知识可以表示为概念规则、规律、模式等形式,它具备有效性、新颖性、潜在有用性及最终可理解性,即发现的知识可接受、可理解、可运用,最好能用自然语言表达发现的结果。处理的原始数据可以是结构化的,如关系数据库中的数据;也可以是半结构化的,如文本、图形、图象数据;甚至是分布在网络上的Web数据和异构型数据。获取的知识可用于信息管理、查询优化、决策支持、过程控制等,还可以用于数据自身的维护。因此,数据挖掘是一个介于统计学、模式识别、人工智能、机器学习、数据库技术以及高性能并行计算等领域的交叉新学科。我国学者在这个领域也已开展了很多研究,主要来自计算机科学及相关领域。
3.数据挖掘的过程[4]
数据挖掘使用一定的算法,从实际应用数据中挖掘出未知、有价值的模式或规律等知识,整个过程由数据预处理、数据挖掘、模式评估、巩固知识和运用知识等步骤组成。
3.1数据预处理。数据挖掘的处理对象是数据,这些数据一般存储在数据库系统中,是长期积累的结果。但是往往不太适合直接对这些数据进行知识挖掘。需要先清除数据噪声和与挖掘主题明显无关的数据,其次将来自多数据源中的相关数据源组合并,最后将数据转换为易于进行数据挖掘的数据存储形式,这就是数据预处理。数据预处理是数据在进入数据仓库系统之前的处理过程,在这个过程中,需要将来自关系数据库、实时数据库或者文件系统等多个外部数据源的数据进行有效的抽取、清理、转化和综合,检查数据的完整性、一致性等质量指标,对其中的噪音数据、空值等进行处理,最后存入数据仓库。数据预处理是数据挖掘的第一步,它是整个过程中很重要的一步,数据预处理是否合适将影响到数据挖掘的效率、准确率以及最终模式的有效性。
3.2数据挖掘。数据挖掘就是根据数据挖掘的目标,选取相应的算法及参数,分析准备好的数据,产生一个特定的模式或数据集,从而得到可能形成知识的模式模型。
学院教学管理数据主要存储在关系型数据库中,大量的数据和数据模型都是反映历届学生的学习情况和教师的教学任务、教学计划以及教师教案等,已开发的数据库系统基本上是面向事物处理的简单的管理信息系统。随着学校对决策信息需求的日益广泛、复杂和迫切,这些传统的数据库系统存在的问题也越来越明显:(1)原有数据库系统是面向OLTP而不是面向OLAP的;(2)原有数据库系统难以适应各类对象数据粒度的不同要求。
在数据仓库中,系统体系结构是关键,要成功地实施数据仓库,首先应该拟订适合本校特点的数据仓库系统框架,一个真正实用、有效、灵活的数据仓库系统体系结构的建立是十分必要的。在对教务系统进行深入调研和需求分析的基础上,针对教务管理自身的特点,给出一个比较适合本校教务管理的数据仓库体系结构,该结构由一个集中式数据仓库(即中央教务数据仓库)、分布式数据集市(即部门学院级数据仓库)和个人级数据仓库相结合。如图1所示。
(1)中央数据仓库。中央数据仓库的目标是进行决策支持,它是支持管理决策过程的、面向主题的、集成的、稳定的、时变的数据集合,它面向主题组织数据,每个主题对应一个客观分析领域,它可以为辅助决策分析集成多个部门、不同系统的大量数据。
为了满足不同应用对数据库的不同处理深度的要求,数据仓库中的多重粒度是必不可少的,其数据仓库中的数据组织结构分为四个级别,即早期细节级、当前细节级、轻度综合级和高度综合级。早期细节级保存历史详细数据,一般保存4~5年的历史数据。当前细节级保存来自集成器的当前细节数据,为单位当年的详细数据。详细数据经进一步汇总,以综合的数据进入轻度综合级和高度综合级。随着时间的推移,由时间控制机制将当前细节级的老化数据转入早期细节(即转化为历史数据)。
(2)数据集市。数据集市(Data Marts)是一种更小、更集中的院、系级数据仓库(Departmental Data Warehouse),它具有传统意义上的数据仓库的四个基本特征,它是按照某一特定的决策支持需求而组织起来的、针对特定主题的数据仓库。
(3)个人仓库。高层管理的主要任务是进行战略决策,需要进行复杂的分析加工,个人级数据仓库面向这一层。针对学校各个院级对数据访问的局部性,有必要为数据仓库十分频繁的关键业务部门建立自己的数据集市,以便节省开支,提高响应速度;对于一般通用业务的分析决策应用,建立一个通用的数据集市,并且建立一个学校高层管理人员使用的个人级数据仓库,以支持学校的宏观战略决策。这样既可以提高解决分析效率,又便于对中央数据仓库进行有效的维护。
3.3模式评估。由挖掘算法产生的模式或规律,存在无实际意义或无实用价值的情况,也存在不能准确反映数据的真实意义的情况,甚至在某些情况下与事实相反,因此需要对其进行评估,从挖掘结果中筛选出有意义的模式规律。在此过程中,为了取得更为有效的知识,可能会返回前面的某一处理步骤中以反复提取,从而提取出更有效的知识。
3.4巩固知识。完成对知识的一致性检查,确保发现的知识与已知可信的知识不发生抵触。
3.5运用知识。发现知识的目的是运用。运用知识有两种方法:一种是直接运用知识来决策;另一种是要求对新的数据运用知识,由此可能产生新的问题,而需要对知识做进一步的优化。
三、数据挖掘在学科建设中的应用
随着学科建设工作的开展,随访工作量的日益加大,如何设计完善的随访系统是科学、准确地做好随访工作的前提和保障。根据“原始资料库”运用适当的算法进行信息的清理,把其中对学科建设无效的数据清理掉,然后通过各种随访手段进行随访,建立起一个能对随访自动处理的“在线随访答疑库”。
1.“原始资料库”的作用
本文以电子在线答疑系统的数据为“原始资料库”,保存在Web数据库中,接收学生们对学科的咨询,甚至对课题的求解方法、方案及求解步骤;教师们对学科建设的看法及建议、问题的解答等数据,“原始资料库”还包含学生的基本资料,任课教师信息,授课情况,学生反映情况等数据信息,这些信息可以通过网站的形式收集,然后存取并存储到相应的学院数据库中形成“原始资料库”的一部分。从中挖掘出学生对该学科可能普遍感兴趣并遇到的问题,教师如何引导学生正确处理并解决,并将问题及解决方案存到相应的数据仓库或数据集市。
2.“随访信息库”的作用[3]
通过对“原始资料库”中的数据清理,建立一个“随访数据库”,其建立流程如图2所示,用于教师、学生等对学科建设的跟踪调查。将“原始资料库”中清理后的数据信息纳入“随访信息库”中是对教改信息资源的二次开发,“随访信息库”中主要有学生的基本资料,学生的学习情况,学生的反映情况等数据信息。
在“随访数据库”的基础之上,进一步进行有价值的信息挖掘,建立一个学科建设的“指导信息库”。
3.“在线随访答疑库”的作用
“在线随访答疑库”的学生的基本资料和“随访信息库”中的学生的基本资料相一致。学院教学信息系统蕴藏着大量数据,全部调用既不可能,也无功效,所以通过现代的数据挖掘技术将“随访信息库”和“原始资料库”结合,进行数据分析、清理和挖掘,得出一个个具有代表性和指导意义的教学案例,并将其添加到“教学案例库”中,逐渐形成一个大规模的、有辅导价值的学院教辅“指导信息库”,使得日后教师、学生等有所借鉴,最终形成信息的共享。其工作过程如图3所示:
四、结束语
如何通过分析原始资料库中的信息,即在传统教学管理系统数据库基础上,对数据进行清理,消除噪声和不一致,整合存放在不同数据库和文件中的数据;设计合理的系统模型,提取相关数据,采用合适的数据挖掘技术和数据预处理算法,建立完备、正确、无冗余的适合教学管理的数据仓库,基于所建立的数据仓库,结合学科建设的具体应用要求,设计交互性良好的用户界面,将分析结果用可视化和知识表示技术表示出来,从中提取对学科建设有用的信息(新知识),发现教学环节中的弱点,制定有益于学科建设的策略和战术,为以后进行决策分析提供有效的支持和依据,通过本文的研究,从理论和实践上找出一套行之有效的方法,为高校全面进行数据仓库建设、数据挖掘研究与开发提供参考,为教学以及科学研究提供方便和研究价值是本文的研究重点。
参考文献:
[1]范明,孟小峰.数据挖掘概念与技术[M],北京:机械工业出版社,2001
[2]康晓东.基于数据仓库的数据挖掘技术[M],北京:机械工业出版社,2004
[3]李雄伟.数据挖掘技术在医疗中的应用研究,信息化纵横,2009年第16期
[4]李琳等.数据挖掘在教学质量分析中的应用研究,衡阳师范学院学报,2009年6月,第30卷第3期