基于R 软件的简单随机抽样案例教学研究

作者: 胡国治 曾婕

基于R 软件的简单随机抽样案例教学研究0

摘要:传统的抽样调查课程注重统计学理论讲授,忽视了统计软件在抽样调查课程中的作用,使学生难以有效应用抽样知识解决实际问题。首先,介绍了R软件,并分析其优越性;其次,探究了简单随机抽样基本原理,给出了总体参数的点估计和区间估计理论;最后,通过具体案例,剖析了利用R软件实现简单随机抽样的过程,并给出了简单估计和比估计的计算程序,使理论与实践相结合,提高抽样调查课程的教学效果。

关键词:抽样技术;R编程;简单随机抽样;统计教育

中图分类号:G642 文献标识码:A

文章编号:1009-3044(2025)02-0004-03 开放科学(资源服务) 标识码(OSID) :

0 引言

统计学是一门以数据为核心的应用型学科,主要从事收集数据、整理数据、分析数据和解释数据的工作。在收集数据过程中,当总体数据庞大或实验具有破坏性时,对总体进行全面调查是不切实际的,抽样调查是一种有效的替代策略,在实际生活中有广泛的应用,如对农产量进行抽样调查可以及时、准确反映粮食生产情况;对农村经济进行抽样调查可掌握农村经济发展的实际状况,为制定农村经济政策提供依据;通过定期开展人口变动抽样调查可准确了解我国人口数量、区域分布和受教育程度等信息,为教育、医疗和社会保障等领域的政策制定提供依据[1]。

抽样调查包括概率抽样和非概率抽样两种。非概率抽样在抽取样本单元时不遵循随机原则,具体包括判断抽样、方便抽样和配额抽样等。尽管这些抽样方法操作简单,但不能直接进行统计推断。概率抽样是以随机原则为基础,按照某种事先设定的程序,有规律地从总体中抽取样本的过程。由于其在抽样过程中融入了概率元素,因此,可以计算抽样误差,并进行相应的统计推断,如构建点估计和区间估计等。

概率抽样以其良好的推断性能,得到广大实际工作者的青睐。但由于概率抽样建立在严格的概率论与数理统计知识基础上,在抽样调查课程讲授中,不可避免地涉及大量的公式推导和定理证明,如在构建总体参数的区间估计时,需要计算估计量的方差;在得出估计量的性质时要证明无偏性等。这些概率抽样理论比较抽象,不易掌握和应用,如果采用传统的课程教学模式,如教师利用黑板或PPT推导公式,学生利用笔和纸进行计算,会大大增加课程授课和学习难度,容易造成学生学习兴趣不足、实践能力不强等问题[2]。

随着计算机的高速发展和各类新兴统计软件的开发应用,上述传统教学模式已很难适应现代统计学课堂的要求,将抽样调查理论与统计软件相结合的教学模式已成为抽样调查课程教学的主流模式。本文以此教学模式为研究基础,探究将R软件与概率抽样中的简单随机抽样相融合,构建了简单随机抽样的R 实现过程,以提高教师的教学效果,并提升学生的学习热情。

1 R 软件简介

R软件是一种用于统计分析和统计绘图的编程软件,最初由新西兰奥兰克大学的Ross Ihaka和Rob⁃ert Gentleman开发,目前由R开发核心团队负责其开发和维护[3]。R 软件可通过官方网站(www.r-project.org)下载获得,最新R软件为R 4.4.1,相比于现有的各类统计分析软件,如SAS、SPSS、Matlab、Eviews 和Minitab等,R软件有独特的优势,具体体现在:

(1) 免费且资源丰富

R软件是一款完全免费的软件,它的各种版本(如R和Rstudio等)均能分别在其官方网站上下载到,R软件的免费性有效地提高了软件的使用频率。此外,R 软件通过加载程序包的形式,丰富其统计分析手段,而这些程序包不仅可免费使用,而且有详细帮助文档供读者研究,R软件的这些程序包资源使R软件几乎能处理现有的所有统计问题,受到统计研究者和数据分析者的广泛关注。

(2) 占用空间小且可编程

最新的R 4.4.1仅36MB左右,占用空间特别小,软件适合存放于U盘中,使用时可做到立刻安装。R 软件是一种编程软件,可根据用户的需求自定义函数,解决一些非编程软件无法实现的统计计算。

R软件在生物统计、经济和金融等领域都发挥着重要的作用。生物统计以统计学理论与方法为基础,通过对生物医药领域的实际数据进行分析,达到对研究对象进行统计推断的目的。R软件中的survival程序包可直接对生物统计中常见的删失数据进行统计分析。时间序列数据和截面数据混合而成的面板数据经常出现在经济金融领域,R软件中的plm程序包可详细分析此类数据,并得出合适的分析结果。

此外,在Tiobe公布的2023年度编程语言排行中,R软件位居第23位,年度涨幅为0.74%,可见R软件用户增长速度快,已成为统计学者、计量经济学者和数据分析人士所喜爱的分析工具之一。关于R软件的更多简介可参见文献[3-4]。

2 简单随机抽样

2.1 基本定义

简单随机抽样是一种最基本的概率抽样,又称纯随机抽样,是从N 个总体单元中随机地、不放回地、一个一个地抽取n 个单元构成样本,使每个单元被抽中的概率都相同,使任何n 个单元形成的组合被抽中的概率也相同。

2.2 估计方法与公式表述

设{Y1,...,Y } N 为总体变量Y 的N 个变量值,在实际生活中,往往需要对此总体的均值和总值进行估计。在抽样调查中,可采用简单估计和比估计方法对其进行点估计和区间估计。

在简单随机抽样中,简单估计是一种最直观的估计形式,用于估计总体均值的统计量是样本均值,且需估计的总体参数和用于估计的统计量是“同行同构”的,这也正是简单随机抽样名字的由来[5]。

除简单估计外,比估计也是一种常见的估计方法,它要求在调查过程中,收集到与主要变量高度相关且信息质量较高的辅助变量,利用这些辅助变量,可以有效提高估计的精度。

3 简单随机抽样的R 实现

利用R软件实现简单随机抽样的过程,主要涉及两阶段,即抽样阶段和估计阶段,即抽取样本阶段和利用所抽中的样本进行统计推断的阶段。具体地,抽样阶段是利用随机原则从N 个总体单元中抽取n 个单元构成样本。估计阶段是以所抽取的n 个样本单元为基础,构建出常用总体参数,如总体均值的点估计和区间估计。

现以一个具体实例阐述简单随机抽样的R实现过程。某市共有10 000户居民,为调查居民收入情况,用简单随机抽样抽取50户,代码如下:

>install. packages(sampling) # 安装sampling 程序包

>library(sampling) #调用sampling程序包

>s <- srswor(50,10000) #进行不放回简单随机抽样

>(1:10000)[s==1] #选出被抽中的单元号

此50 户居民的编号分别为313、407、470、478、586、954、1176、1218、1445、1733、1750、2232、2327、2536、2542、2629、3032、3054、3532、3584、4296、4685、4718、4754、5155、5454、5815、5945、6096、6146、6215、6294、6370、6440、6866、7033、7238、7425、7668、8298、8453、8457、8517、8711、8940、9159、9440、9451、9565、9927。通过深入调查,分别收集到此50户户收入和户主收入数据,现需要估计该市居民户平均季收入及其置信水平为95%的置信区间,具体数据如表1所示[1],并存放在income.txt文件中。

3.1 简单估计

利用R软件对表1数据进行简单估计,构造该市居民户平均季收入及其置信水平为95%的置信区间,代码如下所示。

> data<-read.table“( income.txt”); #读入数据

> N<-l0000; n <- 50; f <- n/N; #计算抽样比f

> Ybar <- mean(data[, 1]); #总体均值的点估计

> Var.Y <- var(data[, 1]); #计算样本方差

> Var.Ybar <- ((1-f)/n)*Var.Y; #计算样本均值的方差

> z <- qnorm(0.975, mean=0, sd=1); #计算正态分布的分位点

> CI.LOW <- Ybar - z * sqrt(Var.Ybar); #计算置信下限

> CI.UP <- Ybar+ z * sqrt(Var.Ybar); #计算置信上限

> out <- c(Ybar, CI.LOW, CI.UP); #生成结果

> names(out) <- c("总体均值的估计量", "置信下限", "置信上限"); out #打印结果

运行上述代码,可得计算结果如表2所示。这些结果表明该市居民户平均季收入为36 767元,其95% 的置信区间为[ 30640.32,42893.68]。

3.2 比估计

利用表1数据构建相应比估计量,代码如下所示:

> Xbar <- mean(data[, 2]); #生成辅助变量均值的点估计

> Var.X <- var(data[, 2]); #计算辅助变量样本方差

> cov.xy <- cov(data[, 1],data[, 2]); #计算协方差

> r.est <- Ybar / Xbar; #计算总体比率估计

> Y.est.r <- Xbar * r.est; #总体均值的比估计

> var.ybar.r <- ((1-f)/n)*(var.Y-2*r.est*cov.xy+(r.est^2)*var.X) #计算比估计的方差

> CI.low.r <- Y.est.r - z * sqrt(var.ybar.r) #计算置信下限

> CI.up.r <- Y.est.r + z * sqrt(var.ybar.r) #计算置信上限

> out.r <- c(Y.est.r, CI.low.r, CI.up.r) #生成结果

>names(out.r) <- c("均值的比估计","置信下限"," 置信上限"); print(out.r) #打印结果

上述代码的计算结果见表3,说明该市居民户平均季收入为36 767 元,其95% 的置信区间为[ 34940.17,38593.83]。对比表2和表3的结果,不难发现,简单估计量和比估计量的点估计结果一致,但比估计量的置信区间要明显短于简单估计量的置信区间,说明在相同精度下,比估计量比简单估计量更加稳健,这得益于户主收入与户收入相关性较强,使得所构建的比估计量方差明显小于简单估计量。因此,在此研究中,比估计量明显要优于简单估计量。在实际调查中,当能获取与主要变量高度相关的某些辅助变量信息时,借助辅助变量构建比估计量,可有效提高估计精度。

4 结论

本文详细介绍了R软件及简单随机抽样的基本原理,以一个具体抽样案例为对象,详细剖析了简单随机抽样的R实现过程。通过运用案例进行简单随机抽样的教学,不仅能帮助学生掌握简单随机抽样的基本理论,还有助于提高学生运用编程类统计分析软件的能力,并利用R软件解决实际抽样调查问题。因此,在抽样调查的课程教学中,为更好地理解各种估计方法的计算过程,简化计算复杂性,应将R软件与实际案例教学相结合,提高课堂教学的实际效果。此外,在本文研究基础上,可进一步尝试将抽样调查案例与不同类型的统计软件(如Python、SAS等) 相结合,并进行对比分析,全面提升学生的统计软件使用能力。

参考文献:

[1] 金勇进,杜子芳,蒋妍.抽样技术[M].5版.北京:中国人民大学出版社,2021.

[2] 陈欣“. 抽样调查”课程的混合式教学策略探索:基于超星学习通平台[J].教书育人,2022(3):110-112.

[3] 薛毅,陈立萍.R语言实用教程[M].北京:清华大学出版社,2014.

[4] 汤银才.R语言与统计分析[M].2版.北京:高等教育出版社,

[5] 赵培信,杨宜平《. 抽样调查》教学中无放回随机抽样的R软件实现[J].科技信息,2012(31):26.

【通联编辑:李雅琪】

基金项目:安徽省质量工程教学研究一般项目“专业认证背景下抽样调查课程混合式教学模式探究”(2022jyxm1277) ;安徽省质量工程教学研究一般项目“审核评估背景下基于SPOC 的混合式翻转课堂模式探究——以《市场调查与分析》课程为例”(2023jyxm0595) ;安徽省质量工程“四新”研究与改革实践项目“新文科视域下经济统计学专业建设与改革路径探究”(2023sx078) ;合肥师范学院科研促进教学专项(2024KYJX59,2024KYJX60)

上一篇 点击页面呼出菜单 下一篇