Power BI和Python在描述统计分析案例教学中的应用
作者: 祖璇
关键词:Power BI;Python;描述性统计分析;案例教学
中图分类号:G424 文献标识码:A
文章编号:1009-3044(2024)21-0071-03
0 引言
描述性统计分析是一种统计方法,通过图表或数学方法对数据进行整理、简化和归纳,旨在清晰地传达数据的基本信息,用于概括和解释数据集特征。这种分析通常包括一系列统计工具,如均值、中位数、众数、方差、标准差以及分位数等,能够帮助研究者了解数据的中心趋势、离散程度及分布形态,为数据的初步理解和后续深入分析奠定基础。
Power BI[1]是微软推出的一款商业智能分析工具集,旨在通过交互式可视化功能、数据刷新和用户友好的界面,帮助用户将数据转化为富有洞察力的报表、仪表盘和数据分析。它允许用户从各种数据源提取数据,并通过数据模型来整合和分析大量复杂的数据集。Python[2]是一种高级、解释型语言,因其功能强大、灵活且易于学习,被广泛用于各种计算机科学和数据分析领域。
学生培养质量的提高决定性因素之一是教学质量的提高[3]。教学质量在一定程度上依赖于教学方法。教学方法是指在教学过程中为了达到教学目的和提高教学效果而采用的各种方式、手段和技巧。具体包括翻转课堂、实验教学法、讲授法、项目驱动、角色扮演、情景案例引入、微课法和案例教学法等。案例教学是一种以学生为本的教学方式,利用相对完善的项目案例,通过设计重现案例真实场景,启发学生在该场景中积极思考并发现和提出问题,然后通过已有知识来分析问题,最后通过学习具备解决问题的能力,即让学生在实践中学习和掌握理论、具备分析问题、形成独特见解的能力[4]。本文利用Power BI和Py⁃thon进行描述性统计分析案例教学,可以极大地增强学习体验和演示效果,并提升学生对数据分析概念的理解和实践能力。
1 案例数据采集与处理
在案例教学过程中,尽可能采用真实数据集进行分析。本案例使用的大学生职业生涯规划数据包括个人基本信息、职业规划困惑、职业生涯问题打分等[5],数据共有919个样本,24个变量。案例变量及其说明如表1所示。
为使数据分析更精确,在数据应用之前需要进行预处理操作。首先,如表2所示,查看各统计量是否有缺失值,若有则删除对应样本信息;其次,为评价学生对所学专业及未来规划职业的喜爱程度,增加新的一列“专业和职业认知得分”,其值为Q61“( 所学专业的兴趣程度”) 、Q62“( 所学专业的未来职业前景”) 、Q63“( 明确的职业目标”) 和Q64“( 未来职业的期待程度”) 的总和。
2 描述分析可视化教学
将Power BI和Python引入统计学的描述统计分析模块中进行教学,通过图形图像可视化展示,可以清晰地掌握数据的基本特征,将抽象概念具体化,从而增强教学效果。本文将从专业分类可视化教学、志愿决定者变量可视化教学、规划课程指导可视化教学、毕业后意向可视化教学和专业与职业认知得分可视化教学等几个方面展开。
2.1 频数分布可视化教学
2.1.1 专业分类可视化教学
本案例中男女人数分别为369人和529人,女生人数略多于男生。问卷调研中专业分类包括理科、人文学科、工科、社会学科、艺术体育和其他6大类。图1为各专业不同性别堆叠图,大部分同学所学专业为理科、人文学科、工科和社会学科。其中,理科专业的男生人数明显多于女生,工科专业的男女比例相当,人文学科的女生人数明显多于男生,选择社会科学的男生还不到女生的1/3,图2为其对应直方图。
分析问卷数据发现,理科和工科是男生的专业首选,其次是人文学科,再次是社会学科,占比分别为27.2%、26.1%、20.8%和18.6%;选择艺术体育和其他的较少,仅占6.8%。女生则对社会学科比较感兴趣,专业所选人数占问卷女生人数的近1/2,达到45%;其次是人文学科,占比为21.4%;再次是工科和理科,分别为13.4%和17.4%,其可视化图形如图3所示。由图3可以看出,男生和女生的专业选择具有一定的互补性。
2.1.2 Q1可视化教学
Q1(志愿决定者变量)是指当年的高考志愿由谁决定。高考志愿填报设置了自己、父母、老师和其他4 个选项。其中,遵循个人意见的占比为63.4%,听从父母建议为29.8%,而听从老师和其他方面建议的不足7%。这在一定程度上说明了至少一半以上的学生有自主选择专业的能力,也从侧面印证了透明开放的信息有助于学生做选择。进一步分析调研数据发现,男生在填报高考志愿时有自己的主见,基本没有考虑父母、老师或其他人的意见;而有51.3%的女生主要参考了父母的意见进行填报志愿,自主填报志愿的比率为37%。由此可见不同性别之间的差异还是比较明显的,具体情况如图4的堆叠图所示。
由图5可知,个人在填报志愿时更多关注的是兴趣爱好和市场就业情况,分别占47.7%和52.3%;父母在帮助选填志愿时更倾向于考虑职业目标、能力优势和孩子的性格特点,分别占26.9%、51.1%和21.8%。这说明个人和父母在专业选择中考虑的因素存在较大差异。
2.1.3 Q3可视化教学
Q3(规划课程指导)是询问被调查学生是否听说过职业规划专门课程或就业指导课程。被调查者大都是大二和大三学生,占总人数的71.9%,但从图6的结果来看,只有极少数同学选择“听过很多”,说明学生对职业规划和就业相关知识相对比较匮乏,职业规划专门课程或就业指导课程的开设还需要进一步加强。
图7所示为规划课程指导对毕业后意向影响分析图,从图中可以看出无论是否了解职业规划相关知识,考研/博都是主流,说明学生对增强知识储备的需求还是很强烈的。待定人数也不少,占总数的15.9%,说明此类学生对未来还很迷茫,没有一个清晰明确的规划,这可能与没有进行相关职业规划和就业指导有关。
2.1.4 Q5可视化教学
Q5为毕业后意向,包括5个选项:出国、考研/博、求职工作、自主创业和待定。表3为不同性别毕业后意向占比,从表3中可以看出,女生在出国、考研/博等方面的数据均优于男生,在求职工作、自主创业方面略次于男生,对自己未来的规划处于迷茫期的女生也低于男生。
图8和图9分别为不同性别和不同专业毕业后意向三维对比图。由图8可知,无论男生还是女生,毕业后意向选择趋势基本一致。选择自主创业的人数比较少,仅占总数的2%,原因可能是创业相对比较困难,不仅需要启动资金,还与所学专业、创业环境等因素有关。
图9展示了不同专业在就业方面的差异,人文学科的学生倾向于出国和考研/博,直接参加工作的人数相对较少;理科、工科和社会学科学生除了考虑出国和考研/博外,选择直接工作的人数占29.6%。
2.2 专业和职业认知得分可视化教学
专业和职业认知得分的统计量值如表4所示,共有858条记录。其值范围为0~20,共21个类别;众数为13,方差为19.718。偏度小于0,表明相对于正态分布,专业和职业认知得分呈左偏分布;峰度大于0,说明相对于正态分布,专业和职业认知得分分布较为陡峭。对于左偏分布,其均值小于中位数,且小于众数,因此存在低估现象。
表5为按性别划分的专业和职业认知得分统计量值。男生记录共359条,女生记录共499条。男生专业和职业认知得分的值范围为0~13,共14个类别;众数为12,方差为9.868。其得分呈现左偏陡峭分布,值存在低估。女生专业和职业认知得分的值范围为13~20,共8个类别;众数为13,方差为5.599。其得分呈现右偏陡峭分布,值存在高估。从男女生的专业和职业认知得分可知,其值存在较大差异。
3 结论
在描述性统计分析的教学实践中,利用Power BI 与Python可以提高学生的数据分析能力和对复杂统计概念的理解。通过本课程的学习,既促进了Python 和Power BI的应用,又使同学们对统计学的概念和内容有了更深入的认识,为其从事数据分析相关工作奠定了坚实的基础。