

幼儿园教师能力自我评价准确吗?
作者: 郭力平 曾蓓 朱晋曦
[摘 要] 教师自我评价是诊断专业能力、落实按需培训的重要依据,更是自主学习、终身学习的内在要求。准确性是影响教师自我评价成效的关键因素,然而,有关幼儿园教师自我评价的准确性如何、不同教师群体自评的准确性是否存在差异等关键问题尚缺乏系统研究。本研究以资历及客观评价为参考,探讨了幼儿园教师能力自我评价的准确性,分别调查了2 288名教师的自我评价与资历信息,以及6 523名教师的自我评价与客观评价结果。研究结果发现:(1)教师自评水平与其资历缺乏一致性,高估型教师占比大;(2)教师自评呈负偏态分布,与客观评价呈弱相关,绝对准确性与偏差指数表明教师自评明显偏离其在客观评价中所表现的专业能力;(3)处于不同发展阶段的教师对能力的自我评价存在差异,呈现“新手的高估与熟手的低估”和“低水平者的高估与高水平者的低估”两种明显倾向。为此,应当促进幼儿园教师自我评价和专业发展有机整合,实现“专业能力提升—自评准确性提高”的良性循环;构建有利于幼儿园教师自评的支持性生态,为实践环境中的自评提质增效;利用技术赋能主客观评价融合,推动幼儿园教师自评方式向更准确高效的方向革新。
[关键词] 幼儿园教师;自我评价;客观评价;资历
*基金项目:中国基础教育质量监测协同创新中心国家监测专项课题“学前教育教师保教质量监测指标体系与工具研制”(编号:2021-02-008-BZPK01)
**通信作者:郭力平,华东师范大学教育学部教授、博士生导师
一、问题提出
教师自我评价是教师按照一定评价标准,对自身职业实践进行价值判断的活动。作为教师个人成长的内在动力机制及推动教师可持续专业发展的重要途径,自我评价能够增进教师对良好实践的理解,[1]帮助教师识别自身专业能力的优势和劣势,[2]激发教师的自我监控意识,促进教师的自我调节学习并为教师的终身学习做好准备。[3]因而,以专业发展为导向的教师自我评价成为新的教师评价过程的重要组成部分,亦是近年来我国教育政策的价值取向与关注重点。《基础教育课程改革纲要》指出要建立促进教师不断提高的评价体系,建立以教师自评为主的评价制度;《幼儿园教育指导纲要》明确提出幼儿园教育工作评价实行以教师自评为主的制度;《幼儿园保育教育质量评估指南》指出要强化自我评估,促进教师主动参与,反思自身教育行为。同时,当下大范围、大规模的教师培训亦催生了对自我评价的现实需求,作为一种灵活易操作且效率高的评价方式,教师自评是专业能力诊断及落实按需培训的重要依据和必要手段。实践中对于教师自评价值充分发挥的期望,转为对教师自评尽可能准确的要求。然而,当前对幼儿园教师自我评价的准确性知之甚少。因此,无论是响应政策层面的既定要求,还是回应当下迫切的现实需要,幼儿园教师自我评价是否准确是一个亟须回答并解决的基础性问题。
自我评价具有重要价值,而其功效发挥有赖于准确性,偏差则会引发诸多不利影响。邓宁(Dunning)等人系统回顾了健康、教育和工作领域中不准确自我评价所带来的现实后果,突显了自我评价研究领域持续关注准确性的意义。[4]迄今为止,不同学科领域的数千项研究提供了数十万参与者自我评价准确性的混合证据。泽尔(Zell)和克里赞(Krizan)对不同学科有关自我评价准确性的22项元分析进行了元综合,观察到自我认知和实际表现之间存在大范围的相关性,平均后相关性r为0.29。[5]这一综合证据表明人们对自身能力往往只有适度的洞察力,但远没有达到理想的程度。一些涉及即时且客观反馈的领域(如运动能力),相关性通常更高;而涉及复杂技能的实践领域,相关性可能很低。[6]教育领域多项关于学生自我评价准确性的元分析,[7][8]其结果均显示能力的自我评价与实际表现之间的相关性不高,并且学生倾向于高估自身表现。邓宁-克鲁格效应(Dunning⁃Kruger effect)便揭示了这一现象,它是自我评价研究中最突出的效应之一,指个体对自身能力评价产生偏差的现象,即低能力者倾向于高估自身能力,高能力者倾向于低估自身能力。[9]实现准确自我认知的确是一项艰巨的任务,在教育领域常常作为他评者的教师,其自评表现如何却鲜有研究。国外有研究以标准化测试为参照,发现职前教师自我评价的准确性不足;[10]有涉及中国幼儿园教师课堂质量、观察能力现状的调查研究发现教师自评与他评存在偏差,但评价准确性并非其研究重点。[11][12]总体而言,目前关于幼儿园教师自我评价准确性的研究不足,确切证据尚缺。
在自我评价研究领域,准确性一般通过自我评价与更客观的标准之间的相关性来确定,外部评价(通常是专家评价)是最常使用的衡量标准。[13]这些研究基于一个共同假设:专家评价是一种“黄金标准”,提供了能力的“真实评价”,有效的自我评价结果应当与之高度相关。然而,“黄金标准”的可靠性和有效性存疑。仅有少数研究报告了专家评价的可靠性,有证据显示使用纵向评价的研究设计特别容易出现专家评价的不一致,专家评价标准及维度的有效性往往也缺乏验证。[14]此外,使用相关系数作为准确性的唯一度量,其价值有限。基于群体相关性得出的准确性结论并不完整,甚至可能带来误导,因为这些研究是基于另一个假设的,即群体中每个个体的自我评价能力相等,由此得出的结论掩盖了个体差异。总之,“黄金标准”的可靠性、单一相关分析的局限性限制了研究对于自评有效性结论的支持力。[15]面对传统研究范式的方法论挑战,应当寻找比专家评价更可靠的替代方案,并探索多样化的准确性度量指标。[16]此外,也有研究者对自我评价工具的可靠性表示担忧,过于模糊的项目表述和对个人知识或技能具体陈述的缺失可能会限制自评的准确性。[17]例如,“我能够在课堂上有效地使用数字媒体”,此种表述使教师更倾向于将自身定位置于高质量教学的理论惯例而非实际能力上,从而指向评价自我教学的态度、信念和价值观,导致原本的评价内容发生错位,专业能力判断被信心评级所取代。[18]因此,要尽量避免自评工具对准确性的干扰,制定具体的、特定任务的和等级分明的评价标准,这不仅有益于评价者进行准确自评,还能帮助其更敏感地察觉技能的细微变化,从而恰当地调整学习策略。[19][20]
综上所述,尽管先前的研究提供了关于自我评价准确性的广泛证据,但缺乏对幼儿园教师群体的关注。在教师自我评价呼声越来越高的当下,国内研究仍停留在对自评有效性的质疑上,对指标体系设置的合理性以及影响自评有效性的内外部因素进行观点讨论,缺乏实证研究,多流于一般结论性的描述、囿于思辨性的推断和经验式的总结。因此,本研究将依托大范围、多来源的调研数据,对幼儿园教师能力自评的准确性问题展开研究。此外,为避免传统自我评价研究范式的方法论问题,本研究将采用更可靠的衡量标准和多种分析方法,以及科学的自评工具,以期做出具有说服力的评判,助益教师自评价值的充分发挥。
二、研究方法
本研究中,自评工具和样本数据源于教育部与联合国儿童基金会幼儿园教师培训项目①,研究团队开展了涉及15省市幼儿园教师的能力测评与调研,获取了教师自评、资历及客观评价等多种来源类型的教师能力水平信息,形成了两个不同比较视角的子研究:教师自评与其资历等级的比较(子研究一);教师自评与客观评价的比较(子研究二)。资历(如荣誉、学历和职称等)反映了外部评价结果,是实践中常用的衡量教师能力水平的重要标准。客观评价是对专业能力的标准化测试,在本研究中通过情境判断测验对教师专业能力进行测评。两种衡量标准兼具实用性与客观性,且能够涵盖当前教师评价的主要方式。
(一)研究工具
1. 子研究一。
子研究一使用两个工具。一是《幼儿园教师资历调查问卷》,获取了教师荣誉、学历、职称、编制和教师资格等信息。二是《幼儿园教师“保育与教育”能力自评问卷》,包含沟通与合作、教育活动的计划与实施、一日生活的组织与保育、游戏活动的支持与引导、环境的创设与利用5个维度共61个题项。每个题目设置4个选项,请幼儿园教师根据自身情况选择“最符合实际情况”或“最经常出现的行为”的选项。选项的表述是对某一能力表现的具体描述,4个选项代表教师能力发展的4种水平,由低到高按1~4分计分。选项的4种水平来源于幼儿教育专家结合标准、理论与实践经验所构建的幼儿园教师能力发展水平。通过组织专家及幼儿园优秀教师访谈等,确保4种能力水平特点的表述符合我国幼儿园教师的现状特点及教师实际工作中的能力需求,水平之间有层次差异,并与幼儿园教师保育与教育能力培训课程指导标准的水平层次相适宜,从而确保了其内容效度良好。验证性因素分析表明,模型拟合程度良好(χ2/df=1.62,p<0.001,CFI=0.99,TLI=0.99,RMSEA=0.02,SRMR=0.03),自评问卷具有良好的结构效度。问卷各维度的内部一致性信度在0.74~0.87之间,总量表的内部一致性信度为0.92,表明该问卷信度良好。
2. 子研究二。
子研究二使用两个工具。一是《“游戏活动的支持与引导”能力自评问卷》,包含16个题项。该自评问卷的研制过程、题目形式和计分方式均与子研究一自评问卷一致,问卷内容效度和信度良好(Cronbach’s α=0.84)。二是客观评价工具《“游戏活动的支持与引导”能力情境判断测验》,抽取自《幼儿园教师“保育与教育”能力情境判断测验》,其信效度已得到证实。[21]《“游戏活动的支持与引导”能力情境判断测验》包含10个题项,采用“描述实践工作典型情境的题干+描述作答要求的指导语+反应选项”的典型客观性情境判断测验形式,作答方式为排序式,每题计分0~4分。
(二)研究样本
1. 子研究一。
为确保测查样本的总体代表性,子研究一采用等比例分层抽样法。基于对教师能力和社会认可度,以及我国幼儿园教师队伍结构的综合考量,将荣誉等级结合教师资格及专业背景作为分层抽样的遴选标准,确定4种教师资历水平:具有省级或地市级荣誉(水平4);具有区县级荣誉(水平3);具有园级荣誉或无荣誉,有教师资格证或学前专业背景(水平2);无荣誉,无教师资格证且无学前教育专业背景(水平1)。面向全国8省市24县(市)幼儿园教师展开调查,覆盖幼儿园604所,其中公办园315所,民办园289所,实际抽样2 389名教师。在各样本区县组织集体测评,由1名主试负责发放和回收问卷。测评完成后,对数据进行录入、编码和筛选。剔除1份无效数据后(答题均为多选),对100份缺失数据(个别题项有所缺失则计为缺失数据)进行Little’ s MCAR检验,结果表明数据为完全随机缺失(p>0.05),故对此部分样本进行删除,[22]最终得到有效数据2 288份(有效率95.77%)。4种资历水平的有效教师样本信息见表1。
2. 子研究二。
子研究二面向全国11省市24区县(市)的教师展开调查,以园所为单位进行整群抽样。测评使用国家开放大学考试系统,由各省市负责人组织在线测评。21 179名教师完成《“游戏活动的支持与引导”能力自评问卷》,全部自评问卷填写有效;12 125名教师参与《“游戏活动的支持与引导”能力情境判断测验》,对答题不全及填写错误的1 092份缺失数据进行分析,Little’s MCAR检验表明数据符合随机缺失的特征(p>0.05),故进行删除。基于使用该测验的先行研究,[23]将作答时长少于10分钟的数据视为无效并剔除。此外,若教师重复参与测验则取最高分一次。按上述标准共剔除1 358份缺失及无效数据。最后,将自评问卷与情境判断测验的有效数据进行匹配,参与两次测评且数据均有效的6 523名教师作为子研究二的样本。样本信息见表2。
(三)共同方法偏差检验
数据分析前,考虑到自我报告数据可能导致共同方法偏差,故采用Harman单因子分析法对两个子研究分别进行共同方法偏差检验。[24]子研究一结果显示,有6个特征值大于1的因子,且第一个因子解释的变异量为25.16%,小于40%的临界值。子研究二结果显示,有2个特征值大于1的因子,且第一个因子解释的变异量为38.80%,亦小于40%的临界值。结果表明,研究不存在严重的共同方法偏差,确保了后续数据分析的统计学意义。