

基于Rasch模型的大概念理解能力垂直等值研究
作者: 彭文坤
摘 要: 基于Rasch模型,针对高中化学课程中的“结构决定性质”大概念,开展了大概念理解能力的垂直等值研究。研究结果显示了不同年级学生在“结构决定性质”大概念理解能力上的表现,为构建高中化学大概念理解能力的定量监测提供了方案。
关键词: 结构决定性质; Rasch模型; 大概念; 垂直等值
文章编号: 10056629(2024)10001407
中图分类号: G633.8
文献标识码: B
1 问题的提出
大概念是反映学科本质、具有抽象性、概括性、统摄性和广泛迁移价值的学科思想和观念[1]。本研究以“结构决定性质”这一大概念为例,探讨物质宏观性质与微观本质之间的相互关系。该大概念反映了化学学科宏观与微观的关联本质[2],深入了解不同年级学生对该大概念的理解能力水平,具有较高的研究价值。如果使用同一测试工具在不同年级学生间进行测量,低年级的题目难度对高年级学生而言就变得过于简单,难以有效测量高年级学生。且重复使用同一测试工具还可能存在练习效应,影响结果的准确性。如果使用针对各年级的多套测试题,且测试题之间能进行有效的等值转换,那么就可以很好地解决这一问题。基于Rasch模型的垂直等值便是一种有效的解决方案。
垂直等值关注学生大概念理解能力发展的连续性,通过将不同年级的测验结果转换到统一的分数量尺上,可以追踪学生在某一大概念理解能力上的增值情况,利于进行增值性评价。有研究者提出,增值评价是一种可以准确掌握学生成长状态、科学计算学生发展水平、详细记录学生增值轨迹的学生评价[3]。Young指出,大多数增值性评价需要一个垂直化的分数量尺,以便将学生在连续几个学年的成绩进行比较,因此,用于增值性评价的测验需要经过良好的垂直等值设计[4]。
2 研究设计
2.1 垂直等值研究的思路与方法
垂直等值(vertical scaling)指的是在某一特质领域内,建立一个评价参照体系,用于衡量纵向发展中不同水平群体或个体特质水平的发展状况的过程[5]。通过梳理已有文献,如闵尚超和何莲珍的“构建英语听力能力发展性量表——IRT垂直等值的应用”等,发现垂直等值研究通常包含以下几个关键步骤:首先,明确进行垂直等值研究的目的,确定为何需要进行此研究;其次,编制双向细目表,同时考虑学科特点和测试内容的维度结构;接着,构建发展性分数量尺,并选择合适的题目设计方法,如锚题设计、等组设计或锚测验设计,以及分数转换方法,如Thurstone方法、Hieronymus方法或IRT方法;然后,选择合适的分析软件,如PARSCALE或WINSTEPS等[6];最后,报告垂直等值的结果并对数据进行解读。本研究的思路与方法如图1所示。
2.2 大概念理解能力垂直等值的合理性
大概念具有不同的知识层级结构,能够反映学科的核心特质,并占据学科的中心地位[7]。化学学科中的“结构决定性质”大概念层级结构如下:一级主题概念包括“基于官能团、化学键与反应类型来认识有机化合物的一般思路”,而二级概念则涉及取代反应、加成反应等。大概念本身的知识层级递进关系适合进行垂直等值。
高中化学课程遵循由浅入深的原则。在必修阶段,学生仅需了解化学键的基本概念,如离子键和共价键的形成。随着年级的提升,学生将逐渐学习更为复杂的结构与性质之间的联系。进入选修阶段,则需要掌握共价键的主要类型,并能利用键能、键长、键角等参数来解释简单分子的某些性质[8]。这种连贯性确保了学习内容的连续性和相关性,也为不同年级间的垂直等值提供了可能性。
在教育评价的需求方面,对核心概念或原理的调查有助于描绘不同年级学生概念理解的发展水平[9]。教育决策者或教师需要了解学生对大概念的理解情况,以便进行资源调配或教学调整,垂直等值就较好地提供了这样一个评价框架。
3 研究实施
3.1 双向细目表的编制
查阅文献资料后发现,目前在大概念的层级划分上尚未有统一标准。有的采用跨学科、学科单元间、学科单元内、学科课时内的大概念划分[10];有的则使用大概念、学科基本理解、学科基本概念和学科事实的分类[11];还有的采用学科大概念、主题大概念和学科基本观念的划分[12]。鉴于“结构决定性质”这一大概念在高中化学教材(人教版)中的呈现情况,为便于后续选题内容,本研究采用了图2所示的结构层次。采用了自下而上的大概念提取方法,结合生活和教学经验,通过不断追问、综合具体案例和小概念来进行提取[13]。同时,运用郑长龙基于idea的主题大概念提取模型[14],并通过文献研究进行了补充,最终构建了该大概念如图2的概念层级关系。
已有研究表明,随着学生对学科基本理解的不断加深和对基本概念的不断丰富,他们对大概念的理解也会逐渐深化[15]。本研究采用Wiggins的理解六侧面对学生大概念的理解能力进行测量,理解六侧面是测量理解的有效办法,可以从理解的某个侧面中将事实性知识与真实的理解进行区分[16]。理解六侧面对“大概念”作了详细解释,还阐述了这些侧面如何丰富学生学习。由于此研究对象为学生对“结构决定性质”大概念的理解,对此我们没有使用布鲁姆目标分类水平,其原因如下:大概念的理解指向学生高阶思维的培养[17],而布鲁姆分类法在高阶思维能力评价上存在不足[18],布鲁姆分类法中知识与理解的内在关系和界线比较含糊[19]。因此采用Wiggins的理解的六侧面对学生大概念的理解进行测量。
本研究采用了二段式测试,即第一段问题为选择题或是非题,旨在检测学生是否理解了相关问题的内容。第二段问题则考查学生对第一段问题所给答案的理由,采用选择题形式。每个题目的第一、二段均设唯一正确答案。第二段的干扰选项基于学生可能的误解或与问题相关的不同观点设计,这些观点来源于已有研究文献及教师的访谈。仅当学生对两段问题都回答正确时,才计为1分。这样的设计既满足了Rasch模型对项目局部独立性的要求,又降低了学生猜题的可能性,提高了测量的效度。
结合Wiggins的“理解六侧面”模型和高中化学课程标准,从化学学科本体视角和学生学习视角出发,构建“结构决定性质”大概念理解能力的评估指标。对于“神入”和“自知”两个侧面据研究实际情况进行了调整,“神入”隐含了经验前提,评估时需要注意学生回答和解释问题时是否克服了自我中心主义[20],但学生自我中心主义有时并不容易被察觉。“自知”这一侧面反映学生对理解局限、盲区、偏见等的自我认识[21]。学生表达自我认识的方式可能因人而异,这也会导致评分者在评估时产生较大偏差,难以统一标准。同时,这两个侧面通常需采用开放式问卷设计,会占用被测试者较长时间。课题组在预测试中发现,由于答题疲劳,对此两侧面答题的学生数量极少。正式测试中将这两个侧面纳入第二段问题的末尾(如E选项),采用开放性设计。最终问卷中学生选答此项人数极少,没有统计价值,不列入后续分析。最终测试题目的内容、题量和理解侧面的情况详见表1。
3.2 分数量尺的构建
等值设计采用锚题设计(共同题)模式,根据项目反应理论,在不同年级的试卷之间设置锚题,以便于进行比较分析[22]。锚题设计(Common item design)是最常用的等值方法,它能够有效地将不同年级学生的学业水平进行垂直等值[23],如图3所示。鉴于“结构决定性质”这一大概念贯穿整个高中化学课程,设计的锚题均围绕该大概念展开,以减少项目漂移(item drift)。
根据锚测验题与独立测验题目是否同时进行,等值设计可以分为“内锚设计模式”和“外锚设计模式”。此研究采用内锚设计模式,如图3所示。依据Inacre的建议,至少应保留5个垂直锚题[24]。在考虑题目分值时,应确保锚题分值至少占总分值的20%,并尽可能使锚题覆盖所有测量方面[25]。因此,本研究在高一与高二年级之间设置了5个锚题,实际包含10个二段式题目。高二与高三年级之间的锚题数量为8个,实际包含16个二段式题目,这一数量符合要求。锚题覆盖了概念理解的各个方面,具体数量及占比见表2。由于所有锚题均采用二段式设计,即20个一段式题目和20个对应的二段式题目。如果题目数量过多,学生可能会出现作答疲劳,导致大量未作答项目,影响估计结果的收敛性[26]。因此,最终确定为高一年级20题、高二年级23题、高三年级26题,由于是二段式设计,实际题量分别为40题、46题、52题。
项目反应理论(IRT)方法是基于被试的作答模式来估计其潜在能力值,这种方法能够反映被试的实际能力分布,并且已经成为构建垂直等值量尺的主要方法[27]。因此,本研究借鉴此方法,采用二级计分法、单层面、单参数的二级Rasch模型。根据已有研究,当构建大型题库时,采用固定参数标定(FIPC)方法更为灵活、有效且节省时间[28],且固定项目参数估计在特定参数估计方法的应用下能够取得良好效果[29]。在此研究中,课题组筛选了近10年的各省高考题和学考题,建立了题库。由于此研究专注于某一特定化学大概念的理解能力,题目的等级和考察范围可以得到精确控制,题目的测量稳定性较高,可以采用固定参数标定法。
3.3 垂直等值分析
3.3.1 样本情况
样本为西南地区某县三所高中的部分学生(全县共有三所高中),根据历年的高考化学排名情况,该县高中教育水平在全市郊县高中中属于中等层次。因此,通过对这三所学校的学生进行测试,可以大致反映该市郊县区中等层次学生对“结构决定性质”大概念的理解水平。本研究对含有化学科目的各类组合班级进行了整体随机抽样,最终样本数分别为高一200人、高二236人和高三289人,这符合Rasch模型数据分析的要求。在正式测试前,所有年级都进行了小范围内的预测试。正式测试时间安排在各年级下学期期中,由于高三年级需要参加艺术和体育考试,测试时间稍作提前。所有年级测试时长均为40分钟(含测试前相关说明),班级科任教师在场监督作答。
3.3.2 数据可靠性分析
采用Winsteps 3.66.0软件进行数据处理。Rasch测量模型的核心指标包括测量工具的单维性、分离度、信度(针对题目和被试)以及题目难度与被试能力对应图(Wright Map)。在单维性检验方面,主要通过残差主成分分析来进行,判断依据是题目的因子载荷(Contrast Loading)值是否处于-0.4到0.4之间。经过预测试并对部分题项进行修改,三个年级正式测试的结果显示出良好的单维性,如图4所示。在图中仅有题项A的值超出了这一范围。经过查证,题项A对应的是一道氧化还原类的阐明题目。该题目的正确选项有对实验结果的阐明,也有操作层面的考察,考虑到题目设计的整体性,课题组决定保留该题目。
三套测试题的学生区分度从高一到高三递增,高一年级的学生strata值为2.97,已非常接近3。由于高一年级学生才升入高中,对“结构决定性质”大概念相关内容接触少,导致层次偏少,该区分度和分层情况可以接受[30]。高二、高三年级strata值分别为3.09与4.04,区分度及分层情况符合要求。模型数据拟合指数INFIT (OUTFIT)的拟合指数MNSQ(mean square)值要求在0.7到1.3之间[31],ZSTD值通常要求在-2到+2之间。此研究中“点测量相关系数”PTMEA(Point-Measure Correlation)大部分在0.5以上,三个年级的测试结果均符合拟合指标要求。
3.3.3 锚题质量分析
在垂直等值过程中,如果锚题在两个不同位置发挥的作用不同,容易产生项目漂移(item drift),这可能会严重影响垂直等值的效果[32]。因此,在设计锚题时,需要仔细考虑题目内容,并通过简洁、规范地表述减少情境效应。为了提高锚题的质量,采用锚题卡方值判定的方法[33]。计算公式如下:
(diA-diB-GAB)2N12·KK-1