数据清洗实训课程教学改革与实施
作者: 任宇婕
关键词:数据清洗实训;教学改革;混合式教学
引言
数据清洗是高职院校大数据技术专业的一门必修课。该课程主要讲授了数据清洗的相关理论知识,如何利用Kettle组件以及Python的Numpy.Pandas等库完成数据抽取、清洗、集成、转换工作。数据清洗实训是数据清洗课程的延伸,通过教师开发的一系列专业实操训练,把所学的数据清洗理论知识和方法应用到具体项目实训中,是帮助学生掌握数据清洗技术、提高数据清洗项目的实践能力的有效手段,是提高学生独立操作能力、分析问题和解决问题能力的一个重要环节。
一、教学面临问题
在之前的数据清洗实训课程中,Kettle工具的五个实训任务,主要集中在单纯的拖动组件、配置参数,学生觉得课程内容略显枯燥,兴趣不高。
此外,Python工具的三个实训任务,本质上都是先读取数据,必要时合并数据,然后进行缺失值、异常值、重复值的处理,最后保存清洗后的数据,并对数据进行简要的分析处理。由于整个过程都是使用Python语言进行编程实现,学生反馈代码思路过于单一,缺少趣味性。
在数据清洗实训课程中,关于Kettle的实训项目,只涉及了如何创建和使用转换(Transformation),并未涉及对多个转换构建的整个工作流的抽象和控制(Job)。而在实际工作环境中,为了实现某些复杂场景下的数据清洗,需要先为子任务创建转换,然后再创建Job,将子任务连接起来,完成一个完整的数据清洗过程。这使得学生在面对实际工作场景下的复杂任务时,没有使用Job对多个转换进行构建的意识,无法创建完整、清晰的数据清洗流程,缺少解决相应问题的能力。
数据清洗实训课程对清洗后的数据,往往只涉及数据存储的操作。由于我校大数据技术专业的学生目前未开设数据挖掘相关课程,学生不明确清洗之后的数据可以做什么,无法理解数据清洗对后续的数据处理究竟可以起到何种重要的作用,使得部分学生对课程的重要性缺少充分的认识。
二、教学改进创新
针对教学中存在的问题,结合我校大数据技术专业学生的特点,对教学方法、教学设计和教学内容进行了改进,具体如下。
课前:在智慧职教云平台上传教学课件、发布需要预习的知识点和任务书,并进行课前测验。学生可根据教师发布的学习任务,先预习相应知识点,并通过课前测验查漏补缺。教师可通过课前测验了解学生对知识的掌握情况,及时调整备课,合理安排教学任务中的重难点。
课中:以学生为主体,让学生带着问题进课堂。在教师“教”的过程中,对学生课前在智慧职教云平台上提出的问题进行解答。在学生“练”的过程中,教师做好辅导,及时解答学生的疑问;对于可以预见的易错问题或一些难题,提前录制一些视频上传到智慧职教云平台,供学生反复观看、学习,帮助学生更好地掌握知识和技能。
课后:及时在智慧职教云平台上批阅学生上传的实训报告,对共性问题进行统一讲解,对个别学生的问题进行单独指导。此外,教师在智慧职教云平台上布置并推送针对性、个性化的作业,进行课后测试,帮助学生巩固学习效果;对于知识和技能完全掌握的学生,推送知识拓展内容。
编写任务手册式的实训指导书,阐明各个任务要完成的内容、需要实现的目标和效果、需要进行的数据和环境准备,提供任务实施的思维导图以帮助学生更好地理清思路、理解任务,并详细描述任务步骤及涉及的知识技能等。
对实训项目中的每一个实训任务,在授课过程中,首先讲解任务要实现的功能、演示最后实现的效果,然后讲解和演示任务实现的步骤。在此过程中,分析每一个步骤使用到了哪些知识点,帮助学生更好地理解这个任务,提高学生的参与度与成就感,激发学生的学习兴趣。
新增实训项目,将教学内容重构为三大项目:Kettle数据清洗实践、Python数据清洗实践、图像数据清洗实践。
1.Kettle数据清洗实践项目:
(l)多数据源合并。将多个文本文件和Excel文件中的数据合并到一个新的Excel工作表中。
(2)文件遍历。遍历文件夹下的文本文件和Excel文件,根据文件类型,使用不同的方式读取文件,将数据导入到MySQL数据库中。
(3)使用定时任务加载数据库表。使用Kettle的定时任务,将数据库1中的数据加载到数据库2中。
(4)使用Job实现课程统计。创建一个Job来整合两个转换,用命令行和定时任务对课程数据进行统计,并输出最终的统计文件。
2.Python数据清洗实践项目:
(1)二手房数据清理。读取某地区二手房数据文件,对缺失值、重复值、异常值进行检测和处理。
(2)中国篮球运动员的基本信息分析。在删除重复值、填充缺失值、确认删除异常值之后,对数据进行分组与聚合、轴向旋转、降采样等。
(3)数据分析师岗位分析。读取有关数据分析师岗位的招聘数据,在对清洗后的数据进行简要分析的基础上,引入Python的matplotlib库,将分析结果通过折线图、柱状图、环形图等方式直观地展示出来,与后续的数据可视化课程关联起来,帮助学生更好地理解数据清洗在大数据处理过程中的角色和重要性。
3.图像数据清洗实践项目:
分别使用Python的scikit-image库和openCV库进行图像数据的预处理,实现图像的读取、保存、调整大小、重塑、旋转等功能。通过图像交互性提高课程的趣味性,激发学生的学习兴趣。
三、教学评价反馈
将本届实施了改革方案的班级(2022级),与往届未实施该方案的班级(2021级)的实训成绩进行了对比,如表1所示。
可见,2022级实施该方案的班级的平均成绩和优秀率都高于2021级未实施该方案的班级,说明该方案有助于提高学生的知识掌握能力、实操能力和专业技能。
对2022级实施该方案的班级的学生进行了问卷调查,主要涉及对课程内容、教学方法、学习收获等方面的满意度和认同度。结果显示,超过85%学生对该方案表示满意或非常满意,认为该方案能够增加课程的趣味性、可理解性和实用性,帮助他们更好地理解数据清洗的方法和作用、掌握使用Kettle和Python进行数据清洗的能力。
结语
做好教学工作是教师一生的追求,只有不断对所教授的课程进行反思、改革,才能有效提升教学效果。本文以四川邮电职业技术学院为例,针对数据清洗实训课程教学过程中遇到的问题,对教学方法、教学设计和教学内容进行了改革。通过实施线上线下混合式教学,将教学延伸到课堂内外;通过改革教学设计,帮助学生更好地理解实训项目,提高学生的参与度与成就感,激发学生的学习兴趣;通过重构实训项目,增强课程与实际工作场景和后续课程的关联度,增加课程的互动和趣味性,提高学生主动学习的动力。根据教学评价反馈,本次改革方案能够帮助学生更好地理解数据清洗、掌握使用Kettle和Python进行数据清洗的能力,为将来从事大数据相关领域的工作打下了坚实的基础。