基于SPSS 的非线性分段拟合方法的功能探讨
作者: 王晗 姚亚君 孔令丽 贾如意 赵晓进
摘要:文章基于3个案例,比较分析SPSS软件中几种非线性回归模型,探讨其分段拟合功能。SPSS非线性回归在特定情况下展现出较强的精准预测能力,文章为学习建模预测的学者提供一个新的思路,为大数据时代特定类型数据的预测提供一种有效方法。
关键词:SPSS软件;非线性回归;分段拟合;曲线估计
中图分类号:C81 文献标识码:A
文章编号:1009-3044(2025)01-0085-04 开放科学(资源服务) 标识码(OSID) :
0 引言
非线性回归涵盖多种模型,包括曲线拟合、多元回归等。本文主要探讨SPSS软件“非线性回归模块”中的分段拟合模型。非线性回归能够拟合稳健回归、时间序列数据等多种复杂模型,在回归建模和预测中具有重要应用[1]。其原理是选择一个非线性的回归模型,根据数学表达式中的参数数目,选择相应数目的初始参数。这些参数可通过曲线拟合结果或公式计算得到。有数学表达式和初始参数就可交给SPSS去拟合。非线性回归一般也是采用最小二乘法对该模型中的参数进行估计,用参数估计值代替初始参数,将方程再次展开,进行线性化转换,从而又可求出一批参数估计值,使得该函数值取值最小化,如此反复迭代求解,直至参数估计值收敛和残差平方和最小为止[2]。本研究旨在通过案例分析比较不同回归模型的拟合优度和残差,探究非线性分段拟合在特定情况下的适用性。
1 研究方法
本研究采用SPSS软件中的曲线估计、时间序列分析和非线性回归三种模型进行拟合。为避免年份数据对高次项参数值的影响,除时间序列分析外,其他模型的自变量均采用序号代替年份,拟合精度保持不变[3-4]。
1.1 曲线估计
曲线估计的基本原理是通过变量转换将曲线直线化,然后用最小二乘法进行拟合,最后将线性模型转换回原始变量的表达式上。SPSS软件的曲线估计模块提供10种常用的曲线方程(二次方程、三次方程、指数方程、幂函数、Logistic函数等) 。一般来说曲线估计是广义非线性回归的首选模型,特点是模型简单、快速和实用。
1.2 指数平滑法
指数平滑法是时间序列分析模块的重要模块之一,是通过平滑系数α 来计算出的一系列平滑值来消除原始时间序列中的不规则变动,从而揭示现象的长期趋势的规律和预测。社会经济活动中很多数据都是依时间顺序构成的集合体,与一般的回归分析不同,有关时间序列分析的统计技巧,几乎都是基于对自相关性处理的技巧[3]。是大数据背景条件下金融经济实证分析建模的主要方法之一,具有非常重要的实践价值。
1.3 非线性回归
非线性回归是一种特殊的统计学方法,优势是预测结果更为精准,假设条件少,可供选择的回归模型多,适合各种不能转换为线性回归模型的非线性回归分析等。本文主要是介绍非线性回归中的分段拟合的优势。
2 实证分析
2.1 实证分析案例1
案例引用某汽车企业1993—2001年的汽车销量数据[4],选择该案例的原因是此汽车企业在1993—2001年发展较为迅速,销量数据具有代表性,能够反映中国汽车市场的整体增长趋势。管理者希望能够用SPSS软件建模并预测出至2002年和2003年的汽车销量。观测数据见图1和表1。分析思路使用曲线估计和指数平滑法进行拟合,再采用非线性回归的分段拟合,试比较拟合优度指标R方和残差,选择最佳的预测模型。
三种模型的残差比较和预测值序列图见图2。结果显示非线性分段拟合效果最好,残差最小,R方最大。残差值比较结果显示,Holt指数平滑模型的残差较大,三次方程与非线性模型的残差始终紧密地纠缠在一起,但在时间序列的末端,非线性的分段拟合误差更接近于零点。根据预测结果来看三次方程的预测值偏高,而非线性分段拟合预测结果是最低的,与三次方程出现明显的差异,因三次方程的R方也是相当高的(R方=0.994) 。从统计学理论角度分析非线性分段拟合效果最好(R方=0.998) 。其分段拟合模型的数学表达式如下:
y=(T<1998) (a+b T)+(T≥1998) (c+d T)
式中,Y 为因变量(汽车销量) ,T 为自变量(年份) ,a,b,c,d分别为其参数估计值。
该案例的特征是数据简单、特征明显。但是,不同的模型之间还是表现出明显的差异,使研究者不得不考虑理论与现实之间如何取舍的问题,这也是数据分析师在现实工作中很可能会时刻面临的一个尴尬的困境。最终,作者更倾向于使用非线性分段拟合模型来预测未来。
2.2 实例2
某种肉鸡在良好的环境条件下生长过程的数据资料见表2和图3,是统计学教材上用来讲解Logistic 生长曲线的典型案例[5]。目前Logistic生长曲线已广泛应用于动植物的生长发育、遗传育种、资源开发等方面的建模研究[6]。分析思路考虑采用Logistic生长曲线,再用时间序列的指数平滑法拟合,最后用非线性分段拟合,通过对3个模型的功能的实证分析,构建最佳拟合回归方程。
Logistic生长曲线拟合结果,R方=0.983,生长曲线的上限为2.827[5],参数a=7.061,b=0.595。从指数平滑模型中择优选择出来的模型是Damped模型,R方为0.951,正态化的BIC为-1.876。非线性分段回归模型结果和模型R方=0.996,非线性分段拟合模型的表达式如下:
y=(T < 8) (a+b T) + (T ≥ 8) (c + d T)
式中:Y 是因变量(体重/kg) ,T 是自变量(周龄) 。a,b,c,d 为参数估计值。3 个模型的残差值比较见图4左。
从3个模型的拟合优度统计量R方和残差图来看(图4左) ,非线性分段拟合的效果都是较为明显的。从预测的角度来看,在时间序列的末端3个模型的预图2 某汽车企业1993—2001年销量三个模型回归残差比较 测效果相当,都非常接近于残差的零点。尤其是Lo⁃gistic生长曲线和指数平滑的Damped模型(图4右) 。这一结果反映了拟合原理的差异,非线性分段拟合的模型最佳,从生产实际角度,Logistic生长曲线的预测结果更接近于实际。
2.3 实例3
数据来自上海市1979—2004年年末人口数统计资料[3],选择此案例原因在于上海是中国最大的城市之一,其人口数据具有广泛性和代表性,能反映城市化进程中人口变化的特点和趋势。原始数据和时间序列图见表3和图5。尝试选择3种非线性回归模型,实证分析哪一种模型是最佳的模型?预测2005 和2006年年末人口数。
曲线估计最终选择出来的模型是三次方程。R 方=0.992,模型检验汇总结果,F=964.672,P=0.000。从时间序列的指数平滑的4个模型中,按照专家建模器自动选择出来的最佳模型是Brown衰减趋势模型,R方=0.998,正态化的BIC=2.222,模型精度有进一步的改善。该模型适用于具有线性趋势并没有季节性的序列。其平滑参数是水平和趋势,并假定二者等同。Brown模型是Holt模型的特例。Brown指数平滑法与ARIMA(0,2,2) 模型极为相似。模型参数估计值α=1(水平和趋势) 。
依据原始的时间序列图来看(图5) ,时间可分为1979—1988 年,1989—1998 年,1999—2004 年三段,可采用非线性分段回归模型,结果显示,模型R方=0.999,拟合效果明显提高,表达式如下:
y=(T<1989) (a + b T)+(1989≤T<1998) (c+d T)+(T≥1998) (e+f T)
三个模型的残差值和预测值比较见图6。可以看出三个模型的最终预测结果非常接近。但是从理论上讲,最佳模型是非线性分段拟合模型,因为R方值是最大的,残差是最小的。
3 讨论
3.1 曲线估计模型的选择
按照统计学的基本原理和SPSS软件的回归模块的设计,曲线估计是本文案例的首选模型。曲线估计的11个模型中拟合效果较为突出的是三次方程,模型中的参数数量是较多的,本文中的实例1和实例3就是如此。实例2选择Logistic生长函数。曲线估计模型的特点是绝大多数的曲线方程都可作为非线性回归的数学表达式继续进行非线性回归,初始参数就是曲线估计的模型参数。优点是通过非线性回归模型的二次拟合后,模型的拟合效果都会有不同程度的提高。缺点是某些模型如三次方程的参数数量较多,可能导致模型复杂度增加,解释性降低。局限性是用户不能随意定义新的模型,只能选择SPSS提供的固定模型。
3.2 时间序列分析技术
本文给出的三个实例都须进行时间序列建模分析。采用时间序列模块的专家建模器和指数平滑模型,时间序列分析技术适用于那些随时间变化的数据集,特别是当数据存在明显的趋势、季节性或周期性特征时。专家建模器的优点是不需要设置任何参数,在定义好日期变量后,只须确定一个因变量进入选项栏中,就能完成时间序列建模并输出结果,对非统计学专业学者较为友好。缺点是在某些特殊或复杂情况下,可能无法达到预期效果。时间序列分析技术还有一个强大的优势,通过ARIMA模型可以拟合各种具有复杂背景噪声和周期性波动的时间序列[7],本文并无涉及这些内容。
3.3 非线性分段回归的功能和评价
非线性分段回归模型的公式是简单的线性回归,表达式只能写在一个逻辑表达式中,见案例1、2、3。拟合前给出相应的初始参数,例如实例1和实例2中需要4个初始参数,实例3需要6个初始参数,但设置需要在非线性参数设置栏内输入相应的字母符号和参数值1。非线性回归适合各种不能转换为线性回归模型的非线性回归分析。优点是能够更准确地描述和预测数据中的非线性关系,提高预测结果的准确性。缺点是初始参数的设置虽相对简单,但选择合适的参数值仍然是一个挑战,特别是当参数数目较多时。局限性是虽然初始参数的正负符号不需要约束,但参数的取值范围仍需合理设定,以避免模型的不稳定性和过拟合。
3.4 不同模型之间的比较
本文通过3个案例或几个回归模型的实证分析,证明SPSS的非线性回归模型,特别是分段拟合模型可能在某些时间序列数据有着更好的拟合结果。本文不强调SPSS的非线性分段回归就是最好的回归模型。从各种统计软件的角度来看SPSS只是其中的一个软件,李海奎等[6]比较的SPSS、SAS等4种不同的统计软件的非线性回归的运算速度和计算精度,提出SPSS 在计算速度和精度等方面是比较好的,但是,SAS在非线性回归中的功能是最为完善的,如果要提高模型的精度可以通过调整收敛标准来完成,这是SAS算法的优势。何勇凤等[8]用R2.15.0统计软件中的“segmented”模块研究鲈鲤仔鱼的早期异速生长模式,取得不错的效果。张文彤等[4]采用不同回归方程对汽车销售数据建模比较,结果显示分段拟合的决定系数较高,但最后选择三次方程来预测未来的汽车销量。依据是三次方程的预测结果明显高于非线性分段拟合的预测结果。说明选择模型时要根据专业知识和相关背景信息进行科学的决策。
4 结论
本文通过SPSS统计软件的曲线估计、指数平滑法和非线性回归等模型对3个实例进行实证分析。结果显示,通过比较曲线估计、指数平滑法和非线性回归3 种模型,发现非线性分段回归模型在特定情况下优于其他模型,强调非线性回归模型的灵活性和适用性,可根据实际数据特征选择合适的回归方程,并通过调整参数来提高模型精度。总体来看,通过拟合精度比较和残差分析,对一些简单的时间序列资料,非线性回归显示出强大的精准预测功能。拟合模型不复杂,参数设置相对简单。本文为学习建模预测的学者提供一个新的思路,为大数据时代精确预测提供理论依据。
参考文献:
[1] 赵晓进,粱芝栋,邵立杰,等.基于SPSS非线性回归的长期趋势预测[J].统计与决策,2021,37(23):20-22.
[2] 张文彤.SPSS统计分析高级教程[M].北京:高等教育出版社,2004.
[3] 赖国毅,陈超.SPSS 17.0中文版常用功能与应用实例精讲[M].北京:电子工业出版社,2010.
[4] 张文彤,钟云飞.IBM SPSS数据分析与挖掘实战案例精粹[M].北京:清华大学出版社,2013.
[5] 李春喜,姜丽娜,邵云,等.生物统计学[M].5版.北京:科学出版社,2013.
[6] 李海奎,肖亚丽,苗军.常用统计软件中非线性回归功能的分析与评价[J].河南农业大学学报,2003,37(2):200-204.
[7] ALA’RAJ M,MAJDALAWIEH M,NIZAMUDDIN N.Modelingand forecasting of COVID-19 using a hybrid dynamic modelbased on SEIRD with ARIMA corrections[J].Infectious DiseaseModelling,2021,6:98-111.
[8] 何勇凤,吴兴兵,朱永久,等.鲈鲤仔鱼的异速生长模式[J].动物学杂志,2013,48(1):8-15.
【通联编辑:李雅琪】
基金项目:河南省一流本科课程项目资助(豫教[2020]13156)