中学数学标准差的理解与教学重构

作者: 吴家全

中学数学标准差的理解与教学重构0

[摘  要] 在中学数学教学中普遍存在对标准差理解不深刻的现象,从标准差的历史发展、内涵,以及整合中学数学教材的角度,重构课堂教学,以使学生厘清标准差的内涵,深刻认识标准差的作用.

[关键词] 中学数学;标准差;教学

问题提出

标准差在初高中教材中多次出现,但大部分中学师生对标准差的内涵的理解局限于“是反映数据离散程度大小的量”. 一是初高中的数学教材关于标准差没有更多的说明,仅仅是为数不多的关于标准差的概念、样本估计总体的离散程度的内容介绍. 二是教师基本遵循中学数学教材编排体系进行教学,使得学生对标准差的理解是碎片化的,且常常局限于教材那一小节的理解. 三是标准差在考试内容、日常生活中涉及很少,也是造成师生理解不深刻的一个重要原因.

标准差的理解

1. 从标准差的来源进行理解

标准差的来源与平均数、误差有关. 误差的定义是测定值减去真实值,而真实值又认为总是得不到的,所以真实值往往用测定值的平均值来代替. 托勒密(Ptolemy)在《天文学大成》中指出:取最大值和最小值的平均数是一条法则,这样做的目的是降低观察值的误差,使所得的结果介于最大值和最小值之间,也就是说误差和平均数总是联到一起的“孪生姐妹”. 说到平均数,不得不想到算术平均数有消除误差、提高精度的作用,这是因为一般测量误差的概率分布符合正态分布. 为了寻找一组数据的算术平均数,数学家勒让德(Legendre)发明了最小二乘法,即对于一组观测数据x,使误差平方和∑(x-a)2达到最小的a是这组数据的算术平均数[1]. 英国科学家卡尔·皮尔逊(Karl Pearson)进军生物统计学时发现生物现象缺乏数量描述和定量分析,于是根据正态分布的密度函数和最小二乘法结构特点提出了“标准差”概念及其符号(σ)表示[2]. 因此,标准差的教学,可以从平均数与误差的发展关系开始.

2. 从标准差的含义进行理解

标准差是随机误差的代表,是衡量随机误差的标准. 对于一个测量过程来说,可以得到很多随机误差值δ,但不管用哪个具体的随机误差值来代表随机误差都不合适. 怎么办呢?能否构造一个参数,让它从总体意义上来表征随机误差呢?人们自然想到用各随机误差的平均值来代表它,可是这行不通,因为随机误差的总和为零,于是人们又想到用各随机误差绝对值的平均值来代表它,即令δ=,并称它为平均偏差,但是最受欢迎的参量是标准差σ,具体表达式为σ==. 标准差的最佳估计值是实验标准差s,具体表达式为s=,公式中除以n-1而不是n,是因为实验标准差的分布一般不是正态分布,是偏分布;公式中的是算术平均值,=x,它是期望u的最佳估计值[3]. 因此,可以用标准差来比较两组数据离散程度的大小,但如果两组数据的测量尺度相差太大,或者数据量纲不同,就需要用变异系数来比较两组数据的变异程度的大小了[3].

标准差的结构特征使它的应用很广泛. 标准差的平方是方差,对于一个变量的误差用方差表示,对于两个变量的总体误差则用协方差COV表示(COV=(x-)(y-)). 协方差可以表示两个变量的相关性的正负,若考虑量纲,又可演变成相关系数rr=. 因此,标准差的教学还可以从它自身的结构特征分析出发,适当突出它在误差理论、数理统计、测量方法等领域的应用.

3. 从标准差的教材分布进行理解

在小学阶段,教材中的统计只有平均数的算法,没有涉及标准差的概念和含义,但在教材中有“量一量,比一比”的内容,涉及误差的说法,也就是说小学教材渗透了误差的思想方法.

在人教版八年级下册教材的“数据的波动程度”中,学生学习了标准差的公式及它反映数据的离散程度的意义,并利用标准差来比较平均数相等或者比较案例优劣. 教材在“阅读与思考”中设置了“数据波动程度的几种度量”,介绍极差、平均差、标准差等反映数据波动程度的特点. 教材还设置了数学活动和课题学习,要求学生进行统计实践活动并计算标准差,最后做出实际的说明判断. 但阅读与思考、数学活动和课题学习并没有引起教师的注意,大部分教师关注的只是教材中的“数据的波动程度”的正文内容,使得大部分学生在学习中只知道标准差的“离散程度”作用和会用公式计算标准差.

人教A版(2019)高中数学必修第二册教材的“9.2.4 总体离散程度的估计”给出平均数、中位数、众数都相同的两个运动员的射击数据,让教练用标准差来选择运动员,并提出总体标准差、样本标准差的概念,这个案例和上述初中教材选取的案例的功能基本一致. 教材最后指出平均数和方差一起能反映数据的取值信息,给出的案例是居民月均用水量的100个数据落在[-2s,+2s]外只有7个,也就是说绝大部分数据落在[-2s,+2s]内,但这个案例并没有在教材中得到重视,只是淡淡地提到而已,不能引起师生的重视.

人教A版(2019)高中数学选择性必修第三册教材的“7.3.2 离散型随机变量的方差”,以两名同学射击环数的分布列为例,在期望相同的情况下判断射击水平,从考虑稳定性的角度出发引出方差、标准差的概念,并研究了方差的性质(D(aX+b)=a2D(X)),然后给出例题用方差进行决策判断,还指出方差的大小可以反映技能的稳定性、加工的精度、投资风险的高低等,但没有给案例进行说明. 7.3.2的内容和9.2.4的内容相差不大,只是站在离散型随机变量的角度思考问题,且教材也没有突出此角度的标准差和7.3.2中的标准差的区别. 在“二项分布”中推导二项分布的方差np(1-p),在“正态分布”中给出误差分布函数后,研究标准差大小与图形的关系,并给出“3σ”法则,且在信息技术应用中给出概率分布图及概率计算,强化“3σ”法则. 在成对数据的统计分析中,给出“样本相关系数”的推导过程,其中数据“中心化”出现了统计量L(即协方差),为了统一量纲而“标准化即”形成样本相关系数. “一元线性回归模型及其应用”中假设随机误差e=0、方差为定值σ2的一元线性回归模型Y=bx+a+e,并用最小二乘法得到经验回归方程=x+,教材着重体现了最小二乘法的形成使用过程,但是对“随机误差e=0、方差为定值σ2”没有解释. 也就是说,标准差在教材中出现的频率很高,但是很“碎”很“散”.

教材在“标准差”部分的编写思考:一是作为“数字特征”,作为刻画离散程度数学化的一个量,研究它的性质、计算,这是教材主要体现的部分;二是作为“决策”手段,进行决策判断,比如判断射击水平,选拔运动员等;三是与平均数一起表征数据信息,如“3σ”法则,教材限于篇幅,欲语还休,在“总体离散程度的估计”和“正态分布”中都只是简单提及;四是与“标准化”的联系,这在样本相关系数的形成中提到过;五是与随机误差的关系,在一元线性回归模型中蕴含着.

不足的是,教材正文并没有强调标准差与平均数之间的关系;标准差的应用案例很少,且教材将关于标准差的应用和内涵,相当一部分放在选修、阅读中去了,比较散乱;教材不看重历史,关于标准差的历史篇幅很少. 这些不足给师生的整体理解带来了一定困惑,因此教师有必要重构教学标准差.

标准差的教学重构

1. 从误差、统计、概率三个角度重构教学“标准差的概念”

(1)情境引入

公元4世纪,在古印度有一个估计果树上果实数目的故事:一棵枝叶茂盛的大树长有两条大的树枝,Rtupama需要估计这两条树枝上果实的数目.他首先估计根部的一条细枝上的果实数目,然后乘以树枝上的细枝数目,得到估计值为2095. 经过一夜计数,证明Rtupama所估计的果实数目十分接近实际的果实数目.

问题1 Rtupama所选择的细枝上的果实数目代表什么样的数学含义?Rtupama所估计的果实数目与实际的果实数目之间的差异叫做什么?

设计意图 选择的细枝上的果实数目代表平均数,差异是误差,揭示误差和平均数是相随相伴的关系.

(2)误差角度理解

16世纪,天文学家通过计算多个观测值的平均数,以便把误差降低到较小的程度. 英国天文学家、数学家辛普森(1710—1761)试图推广天文学界计算平均数的方法,他证明,若以观测值的平均数去估计真值,误差将比单个观测值要小,而且随着观测次数的增加,误差会进一步减小.

问题2 下面(表1)是某天一个女生身高的10次测量值(单位:cm).

这个女生的身高平均值是多少?用身高平均值代替女生的真实身高,每次测量的误差是多少?

这10个数的平均数=(x+x+…+x)=165.09(cm),用它代表该女生的真实身高,测量随机误差如表2所示.

追问:代表10次身高数据的是身高的平均数,那么代表10个随机误差的是什么数呢?

设计意图 衔接问题1,根据辛普森的介绍,引导学生思考追问,学生自然想到用随机误差的平均数来代表它,但平均数之和为零,不得不想到加绝对值、简便运算、单位统一等要素,从而理解标准差的含义,引出标准差的概念.

(3)统计角度理解

标准差的概念是谁提出来的?为什么叫标准差呢?

问题3 甲、乙两名射击队员在一次射击测试中各射靶10次,每一次命中的环数如下(表3):

如果你是教练,你会如何评价这两名运动员的射击情况?如果这是一次选拔考核,你会如何选择?

追问:通过上面计算标准差的过程,如果知道数据x,x,...,x的频率,那么还可以怎样计算标准差?

设计意图 介绍提出标准差概念的卡尔·皮尔逊及标准差的含义,借助问题3进行验证,同时通过结论分析去认识样本标准差的局限,以及s=的形式,为随机变量的标准差的形成做好铺垫.

(4)统计概率的结合理解

伯努利大数定律是数理统计的一块基石,是指在n重伯努利试验中,在实验次数足够大的条件下,某一事件发生的频率无限接近其发生的概率.

问题4 要从甲、乙两名同学中选一名代表班级参加射击比赛,根据以往的成绩记录,甲、乙两名同学击中目标靶的环数X和Y的分布列如表4和表5所示. 如何评价甲、乙两名同学的射击水平?

追问:如果甲、乙两名同学击中目标靶的环数的平均数不同,又怎么比较呢?

设计意图 借助伯努利大数定律体会随机变量的标准差和样本标准差的联系和区别,借助问题4的追问延伸出变异系数的知识.

上述四个问题从误差理解开始,过渡到统计学、数理统计,促使学生明白标准差的生成发展,整体认识标准差,解决教材知识分散导致学习碎片化的问题.

2. 从真实案例的角度重构教学“标准差的作用”

(1)真实数据,引出课题

情境 某校6个理科班289人参加数学竞赛选拔考试,成绩如表6所示,平均分61,标准差12. 其中前10名成绩分别为100,98,95,95,93,88,88,88, 88,87,86,86,85,84,83. 如何根据平均分和标准差确定最佳的参赛人数?

设计意图 用一个实例引入课题,调动学生的积极性,并阐明学习标准差的作用.

(2)公式剖析,揭示本质

问题5 标准差的公式是什么?反映的意义是什么?

设计意图 通过问题引导学生回顾标准差反映数据离散程度大小的作用,理解标准差反映数据离散程度大小的本质是它与数据偏离平均数的平均距离有关,并从这个本质引出偏离平均数n个标准差距的三个区间(u-σ,u+σ),(u-2σ,u+2σ),(u-3σ,u+3σ)(u指平均数,σ指标准差),以及数据落在这三个区间上的频率有某种规律.

(3)计算发现,探索新知

例1 算一算上述情境中的成绩数据落在(u-σ,u+σ),(u-2σ,u+2σ),(u-3σ,u+3σ)区间上的频率.

总人数为289,平均分u=61,标准差σ=12,因此成绩数据落在(u-σ,u+σ),(u-2σ,u+2σ),(u-3σ,u+3σ)区间上的频率分别约为66.06%,94.98%,99.48%.