初中化学实验操作考试智能赋分的试验与思考

初中化学实验操作考试智能赋分的试验与思考 0

摘要：从国家课程教学改革背景下化学实验操作考试对智能赋分系统的迫切需求出发，在实际应用场景中对四家公司的智能赋分系统开展试验，通过对试验数据的收集和分析，评估系统的赋分能力和存在的典型问题，并对系统的进一步开发与应用提出建议。

关键词：初中化学；实验操作考试；智能赋分

文章编号： 10056629（2024）03002207中图分类号： G6338文献标识码： B

1背景

1.1改革的导向和成效

2019年11月，教育部发布《关于加强和改进中小学实验教学的意见》，其中主要举措的第6条“健全实验教学评价机制”中明确指出“2023年前要将实验操作纳入初中学业水平考试，考试成绩纳入高中阶段学校招生录取依据”［1］。截至2021年12月，全国共有19个省（自治区、直辖市）统一加试实验操作考试，其中8个省采取省级统一命题、统一组织实施［2］。

2021年5月，根据《上海市进一步推进高中阶段学校考试招生制度改革实施意见》，上海实施了中考改革后的首次化学实验操作考试，考试由上海市教育考试院统一命题并组织实施。化学实验操作考试作为上海市初中学业水平考试综合测试的一个组成部分，满分5分，考试时长15分钟，为减少实验操作考试的偶然性，每位考生需要连续完成2次化学实验操作考试，取2次考试中的高分记入中考总分［3］。

将实验操作考试纳入中考计分的改革举措，对一线的实验教学起到了很好的导向作用。教师在教学中普遍增加了学生动手开展真实化学实验的机会，关注学生实验操作规范性的落实，对提高学生开展科学探究活动的效率、丰富学习经历、增强学习体验、全面发展核心素养具有重要意义。在2021年秋季对上海某区的课程与教学调研中发现，某节高一、高二学生均可选修的化学拓展课中，新入学才两个多月的高一新生（新中考政策的第一届初中毕业生）在实验操作的规范性和效率等方面明显优于已就读一年多的高二学生，并由此影响到学习的积极性和方案设计、观察记录、数据处理、结论获取等各个探究环节的质量。可见改革举措产生了立竿见影的效果。

1.2实验操作考试面临的挑战

中考的实验操作考试是实作评价的一种形式，具有大规模、高利害的性质，相比纸笔测试，必然在考试的组织和公平性等方面面临巨大的挑战。

2021年上海的实验操作考试采用现场一评和在集中评阅点的视频二评相结合的方式开展，由于现场一评1人监考4名考生，监考教师具有一定的缺口，有的区需要组织高中化学教师参加为期2天的一评。二评几乎需要投入所有的初中化学教师，周期也较长，由于5月份正值学生复习迎考的关键阶段，给学校和教师造成较大的压力。人员多、周期长也给各区的经费投入造成了一定的压力。2023年，该考试取消现场评分，全部改为视频评分，尽管随着评分方式和考务流程的优化，组织工作压力有所减小，但仍无法解决视频阅卷中人员多、周期长的问题。

撇开命题、评分标准、考试组织管理等方面的因素，尽管事先对相关的评分人员都有专门的培训，但无论是现场评分还是视频评分，都存在评分员的个体差异性和主观性造成的公平性问题。现场评分中评分员有时很难同时观察多个考生的关键动作，甚至很难做到长时间的高度关注；视频评分中镜头视角的信息往往不够全面，需要评分员进行主观推测。

开发和应用智能赋分系统不仅是解决上述问题的一种重要思路，也可以促进日常教学中对学生实验操作的训练、矫正和过程性评价等。上海在新中考方案设计之初，就为实验操作考试的智能赋分预设了各种硬件条件。截至2021年5月，共建成理化实验操作考点391个，每个考点至少有一个化学标准化考场。标准化考场中的仪器配备实现了区内统一，每个实验台上都至少配有前视和俯视两路高清摄像头，可以记录学生在实验台上规定范围内完成的所有操作。这些条件已经在两年的真实考试运行中发挥了重要作用，也是智能赋分的基础。

智能赋分系统的核心是智能算法，全国已有多家公司在实验操作考试智能赋分方面投入了研发力量，这些已有的方案能否满足大规模高利害考试的要求，需要开展基于实证的教学研究。

2实验操作考试智能赋分的试验

2.1试验的对象

K、 L、 M、 N四家公司的实验操作考试智能赋分系统，每家公司的系统除了智能赋分的软件和考试管理软件，还包括实验台、摄像设备、相关实验仪器设备、网络传输系统、数据存储系统、算法服务器等。其中L公司在一些玻璃实验仪器上做了一些标记，在天平中植入了蓝牙模块用于传输天平读数给系统；M公司采用了三摄像头的方案，第三个摄像头位于实验台的侧面。

2.2使用的试题

试验采用历年上海化学实验操作技能考试的2组试题，其考查内容和评分点见表1。2组试题涉及的实验操作具有一定的代表性和覆盖面，可以较好地检验智能赋分系统在实验操作考试中的可靠性。

2.3试验的设计

试验由12位青年教师模拟考生参加测试，每位教师先后完成A、B两组试题，由智能赋分系统进行打分。表1试题考查内容和评分点〖XB，HT8.H，J*2;Y2<续表>〗组别考查内容评分点编号A气密性检查气密性检查操作正确A1气密性检查中现象与结论一致A2搭建制备二氧化碳的装置仪器选择正确A3集气瓶口向上A4用电子天平称取一块大理石放上称量纸，正确“归零”A5质量记录准确A6将大理石转移至大试管底部固体由试管口缓缓滑到试管底部A7将稀盐酸倒入大试管中倾倒方法正确A8鉴别氢氧化钠溶液与氢氧化钙溶液现象描述正确A9结论正确A10B量取20mL蒸馏水量筒读数方法正确B1液体体积正确B2搅拌使粗盐溶解玻璃棒搅拌动作正确B3制作过滤器滤纸紧贴漏斗内壁B4搭建过滤装置漏斗下端尖嘴处紧靠烧杯内壁B5过滤操作转移液体时烧杯紧靠玻璃棒，玻璃棒末端轻抵三层滤纸处B6液面低于滤纸边缘B7用滴管吸取滤液后滴加入试管中胶头滴管使用正确B8鉴别硝酸钡溶液与硝酸银溶液现象描述正确B9结论正确B10测试前一天专门组织参加测试的教师开展研讨，完成以下任务：

（1）明确每个评分点得分的操作要领，例如B3的动作要领包括：①玻璃棒不敲击烧杯内壁；②液体不溅出；③可溶性固体完全溶解。

（2）通过讨论尽可能罗列每个评分点可能出现的错误操作，例如B3可能出现的错误操作有：①使用玻璃棒以外的物件（如滴管、药匙等）进行搅拌；②玻璃棒敲击烧杯内壁；③搅拌时有液体溅出；④有搅拌动作，但玻璃棒未伸入液面甚至未伸入烧杯；⑤玻璃棒伸入液面，但没有搅拌；⑥用玻璃棒碾压烧杯底部未溶解的固体；⑦有搅拌动作，但是持续时间很短，可溶性固体未完全溶解……

（3）明确每位教师在测试时的分工：在哪些评分点得分，哪些评分点故意做错失分，以何种错误动作失分。

最终，每位教师在参加测试前都会拿到一份个性化的任务清单，明确每个评分点需要做出的动作，例如6号教师的任务清单如表2REF_Ref155130302所示。

对各公司导出的原始评分数据进行处理后得到的总正确率、对正确操作判断的正确率、对错误操作判断的正确率、逐个评分点正确率情况如图1、图2所示。

图1总正确率、对正确操作判断的正确率、对错误操作判断的正确率

图2各评分点正确率

（1）从图1可知，几家公司的智能赋分系统评分的总正确率普遍不高，其中M公司由于数据导出时出现错乱，无法在规定时间内解决问题，故正确率接近猜测概率50％，即接近理论上系统最差的表现，因为正确率达到0与达到100％具有同样的难度。鉴于M公司的数据已不具有分析价值，在后续分析中将其剔除，其三摄像头的方案是否更加有效也无从分析。

（2）从图1还可以发现，各系统对正确操作和错误操作的判断能力各不相同，K判断正确操作的正确率远高于判断错误操作，N正好相反，而L两者比较接近。自动赋分的要求是两者相当且都比较高，显然三个系统都没有达到这样的要求。K可能是对正确的标准定得比较低；也可能是研究正确的操作比较多，而忽视了研究各种可能出现的错误操作。而事实上，考生在实验操作过程中可能出现的错误情况是远多于正确操作的，赋分系统如何进行判断需要投入更多的研究。N可能对正确的标准定得过于严苛，造成很多正确操作被判为错误。当然，以这样的标准来评判错误的操作正确率就高了。

（3）从图2REF_Ref155209370可以发现，同一系统在不同评分点、不同系统在同一评分点的正确率都存在较大差异，各系统未体现出应有的可靠性和稳定性。在有些评分点上，部分系统的准确率已经可以达到90％以上甚至100％。例如：A4、 A5、 A7、 A9、 A10、 B10。其中A4、 A5、 A9都是对状态而不是过程的判断，相对容易实现。A7的操作尽管是一个过程，但是其中的状态和过程相对比较容易量化评判，所以有的系统能达到较高的正确率。A10、 B10在提供考生实验用品时就有固定答案，因此输入系统的判断标准非常明确。但各系统获取考生答题信息的方式不同，有的是通过让考生在屏幕上直接选择或输入，有的是通过摄像头拍摄考生答卷中的手写内容进行识别，显然前者在评分时的难度较小，正确率较高的正是前者。另外考生的书写也会出现各种可能，如“氢氧化钠”“氢氧化钠溶液”“NaOH”“NaOH溶液”等，再加上手写笔迹的识别、答卷放置的位置和角度等因素，需要系统具有一定的“应变能力”，这也是有些系统在这两个评分点正确率不高的原因。

（4）从图2中部分正确率较低的评分点出发，结合测试前对这些评分点的一些操作预设，发现K、 L、 N三个系统都将错误操作判断为正确的有：①用手捂试管进行气密性检查，但是持续时间很短，只有1秒，然后下结论（A1、 A2）；②用烧杯作为收集二氧化碳的容器（A3）；③电子天平读数比示数略大（A6）；④用量筒量取液体时刻度未朝向自己（B1）；⑤有搅拌动作，但玻璃棒未伸入烧杯（B3）；⑥搅拌时玻璃棒敲击烧杯内壁（B3）；⑦滤纸紧贴漏斗壁，但侧面或底部已有破损（B4）；⑧实验现象中没有沉淀，但是试卷上回答“有沉淀”（B9）。三个系统都将正确操作判断为错误的有：①将大理石转移到大试管底部（A7）；②过滤器的制作（B4）；③使用滴管滴加液体入试管中（B8）。这些问题的产生，主要有以下方面的原因：①系统对正确操作的“理解“不够全面细致，判断时利用的信息不够全面，断章取义抓局部来进行评判；②对持续的过程进行评判的能力不足；③在多个评分点之间存在关联时，评判逻辑存在问题；④对实验中的某些信息捕捉不够全面、精准，影响后面的评判；⑤对某些评判标准的阈值设定与人工判定存在差距。

（5）从图2中L系统的表现来看，由于其在一些仪器上使用了一些辅助手段，使容器口等部位更加容易判断，实验数据更容易传输，使得A4、 A6、 A7、 B2、 B8等相关评分点正确率高于平均值。但提升并不显著，远未达到优秀水平。测试过程中也发现，由于在天平增加蓝牙模块后降低了天平的灵敏度，严重影响了正确的称量操作和读数。

3试验中反映出的问题

从测试的情况来看，各家公司都能通过智能赋分系统多角度地捕捉考生的行为，并能通过一定的算法校正图像畸变后对考生的行为进行进一步的判断，判断一般都是通过物体识别、空间定位、关键帧捕捉等方式实现。但在真实环境中的测试结果并不理想，还远未达到大规模、高利害考试自动赋分的要求。通过试验中的数据分析和日常的调研访谈，可以提炼出以下一些需要解决的问题或困难。

3.1系统获取信息的完整性

各系统获取考生实验操作信息的方式比较单一，即依靠固定式双路摄像头的纯视觉方案来获取信息。

即使考生严格按照要求，所有操作都在实验台划定的框线范围内进行，也可能无意中发生以下情况：手部或头部在活动过程中遮挡部分或全部摄像头，就算只是瞬间，也可能丢失关键信息；实验过程中可能有液体溅到摄像头上或者产生雾气影响视频质量；仪器之间互相有遮挡，甚至个别仪器直接放在完全遮挡镜头的位置……