基于主成分—马尔可夫链模型的高职院校就业的预测研究

作者: 黄敏菁 练佳熠 宋伟奇

基于主成分—马尔可夫链模型的高职院校就业的预测研究0

摘要:高职院校的学生培养是以就业为导向。因此,研究影响高职毕业生就业率的因素,预测不同毕业生的就业率,对院校的招生就业计划尤为重要。文章以某高职院校2015~2020年毕业生就业率为样本,运用Python等工具实验仿真,建立主成分分析模型探究影响就业率的因素,通过回归进行预测,并利用马尔可夫链对残差进行修正,提高预测的准确性。针对就业率的分析,提前对就业形势进行预警,对高校就业指导提供一定的理论和技术支持。

关键词:高职毕业生;就业率模型;主成分分析;回归分析;马尔可夫链

中图分类号:TP18      文献标识码:A

文章编号:1009-3044(2022)24-0012-03

1 概述

2020年,在新冠肺炎疫情的影响下,国内经济增长速度放缓,就业市场面临严峻的挑战。虽然2021年GDP增长带来了新的就业机会,在一定程度上缓解就业压力,但据教育部公示数据2021年高校毕业生高达909万人,创历史新高。另一方面,国外经济形势持续下滑,留学生回流,导致2021年就业形势也不容乐观。2021年习近平总书记对职业教育工作做出指示,职业教育前途广阔、大有可为。作为高职院校,本就是以就业为导向,为各个岗位输送人才。因此,对毕业生就业情况进行研究,探究影响就业因素并且对就业率进行建模和预测,为高职院校招生就业指导提供参考依据显得尤为重要。

对于高职院校就业率问题,有许多学者进行了研究,针对就业率的预测提出了一些可行的方法。第一种是采用专家系统,通过领域内一些专家对职业院校学生就业特点进行分析,建立职业院校就业率预测的知识专家库,对未来某时刻职业院校学生的就业率进行估计和预测,但这种方法工作过程复杂,对专家库的依赖性高,有很强的主观性[1]。第二种是时间序列进行预测,将就业率看成一个灰色系统,不需要了解影响系统的因素就可以对就业率的变化进行预测,但就业率并非持续增长而是会有波动,单一的灰色系统只可对增长趋势的模型进行预测,且只单一预测出就业率,无法理解具体的影响因素对高校就业指导的作用不大。第三种是利用主成分分析法等模型选出影响就业率的主要因素,将影响因子作为输入,就业率作为输出进行预测[2]。第四种是神经网络,神经网络能够根据输入影响因子,预测出较为精确的数据,但神经网络往往需要大量数据训练才能达到效果,样本量较少会影响神经网络输出的稳定性。

基于现实情况,往往不能提供大量的就业率数据,所以选用第三种方法,运用主成分分析的方法对就业率进行预测。但就业率影响因素很多,且存在一定的随机性和非线性,为了增加模型预测的准确性,利用马尔可夫链模型适用于随机波动大的特点,本文将两种模型对高职就业率进行预测。利用主成分分析建模找出影响就业率的主要因子并进行消除共线性、降维等处理,提高就业率数据预测的效率。在主成分回归模型预测就业率的基础上利用马尔可夫链对预测数据进行修正,建立主成分-马尔可夫链预测模型,提高预测数据的准确率。

2 模型构建

2.1 主成分回归分析模型

主成分回归模型是利用了降维的思想,将在线性回归模型中存在精确相关关系或高度相关关系的一组解释变量,在只损失少量信息的前提下,通过正交旋转变换为一组线性不相关的变量,正交变换后的这组变量就叫作主成分。由此可知,每一个主成分都是由原始变量的线性组合,并且各个主成分之间互不相关。因此通过主成分分析,除了可以降低研究因素的维度,在研究复杂多因素问题时还可以不用考虑变量之间是否相互独立的问题,并且可以通过构造主成分的线性组合探究各个因素间的内部关系。用主成分分析后构造出的主成分作为新的自变量代替原有的因素做回归分析,可提高模型的计算效率,增加模型的可解释性。

主成分回归分析模型构造理论如下:

首先进行主成分构造。设选出可能影响某事物变化的因素有p个,分别用[X1,X2,…,Xp]表示,这p个因素构成p维的随机向量[X=X1,X2,…,Xp'],其中随机向量[X]的均值为[μ],协方差矩阵为Σ。可对向量[X]进行线性变换,得到新的p维随机向量[Y],即满足下式:

[Y1=μ11X1+μ12X2+…+μ1pXpY2=μ21X1+μ22X2+…+μ2pXp……Yp=μp1X1+μp2X2+…+μppXp]

若要进行的线性变换正好为正交变换,即各[Yi]之间相互独立且变换后的[Yi=μ'iX]方差尽可能大。并且线性变换要满足以下条件:

(1) [μ'iμi=1],即[μ2i1+μ2i2+…+μ2ip=1](i=1,2,…,p) 。

(2) [Yi]与[Yj]不相关(i[≠]j;i,j=1,2,…,p),即[cov(Yi,Yj)=μ'iΣμj=0,  i≠j]。

至此,经过正交线性变换后的p维因素可称为p个主成分,并且消除各因素间的共线性,实现互不相关。若要实现降维,选出理想的主成分就要保留变换后方差最大的主成分,而舍弃方差较小的主成分。即在满足正交线性变换条件(1) 的情况下,[Y1]是所有[X1,X2,…,Xp]线性组合中的方差最大者;[Y2]是与[Y1]不相关的[X1,X2,…,Xp]的所有线性组合中方差最大者;……;[Yp]是与[Y1,Y2,…,Yp-1]都不相关的[X1,X2,…,Xp]的所有线性组合中方差最大者。可选出前q个主成分作为回归模型的自变量,实现降维的要求[3]。

其次,将选出的q个主成分作为自变量,建立回归模型,进行回归分析。可根据投入模型的主成分个数选择一元回归或多元回归分析,并且可根据因变量和自变量的变化趋势选择线性回归或者非线性回归分析。

2.2 马尔可夫链模型

马尔可夫链是根据现有的状态转移规律,预测未来可能出现的状态模型。在事情发展的过程中,若每次状态的转移都只和前一时刻的状态相关,与过去的状态无关,具有这样属性的随机过程称为马尔可夫链。原理如下:

设[Xn=Xn|n=0,1,…]的状态空间是I,并且用[i,j,l,i0,i1,…]等表示I中的状态。如果对任何正整数n和I中的[i,j,l,i0,i1,…,in-1]随机序列[Xn]满足:

[PXn+1=j|Xn=i,Xn-1=in-1,…,X0=i0=PXn+1=j|Xn=i=PX1=j|X0=i]

则称[Xn]为时齐的马尔可夫链,简称“马氏链”。这时称[Pij=PX1=j|X0=i, i,j∈I] 为马氏链[Xn]的转移概率,称矩阵[P=pij=piji,j∈I]为马氏链[Xn]的一步转移矩阵,简称为转移矩阵。且转移矩阵P的各行之和等于1,即:

[jϵIpij=jϵIPX1=j|X0=i=PjϵIX1=j|X0=i=1][4]

若从随机序列[Xn]中状态[i]经过一步转移达到状态[j]的频数为[fij],[i,j∈I],即有转移概率[pij=fij/infij]。将转移矩阵的第[j]列之和除以各行各列综合所得的值称为边际概率,记为[p∙j],即满足:

[p∙j=i=1nfij/i=1nj=1nfij]    (1)

[χ2]统计量满足:

[χ2=2i=1nj=1nfijlgpijp∙j]     (2)

并且服从自由度为[(n-1)2]的[χ2]分布。若给定置信度为[α],如[χ2>χ2α(n-12)],则拒绝零假设,认为序列[Xn]具有马尔可夫性(即马氏性) ,反之,则这个序列不能作为马尔可夫链处理[5]。

2.3 主成分—马尔可夫链模型

对于主成分回归模型的预测结果,得到的残差具有随机性。可经检验具有马氏性后,运用马尔可夫链模型对残差结果进行修正。设残差序列为[e=(e1,e2,e3,…)],其中[ei=yi-yi],[yi]为预测值,[yi]为实际值。将残差序列划分为k个状态区间,设第i个状态区间为[Ei,i∈(0,k]]。后计算残差序列的一步转移矩阵[Pk×k=pijk×k]。当残差的预测值落在区间[Ei]时,记[[Eil,Eiu]]为区间的范围,取区间的均值[Ei=Eiu-Eil/2]作为该区间的中残差的预测值。并且修正后的预测值为:

[Eyi=yi+j=1kEjpij]    (3)

其中,[Eyi]为修正后的回归序列[6]。

3 模型实证

3.1 数据来源

本文数据来源于选取某高校2015~2020年共6年,6个系部,36个专业的就业率数据。由于高职毕业生的就业范围多是服务本地产业,所以选取的影响因素需要多是从区域范围选取。现从区域经济、区域社会情况和高校三个方面选取影响就业率的相关因素。由于区域经济和社会情况数据获得具有一定的滞后性,所以区域经济选取2014~2019年区域生产总值、各个产业总值及占比、固定投资增速、相关产业固定投资增速作为模型影响因子。区域社会因素选取2014~2019年从业人员单位数、就业人数,相关行业单位数、相关行业从业人员数作为模型影响因子。高校因素方面选取2015~2020年教职工数量、招生人数作为模型影响因子[7]。

3.2 数据处理

本文采用主成分回归分析模型,根据上述选择的影响就业率因素,共有15个影响因子输入模型。由于各个因子的量纲不同,如果直接使用原始数据会使得量级较大的字段放大对整体的影响,例如生产总值都是亿万级别的数据,若直接投入模型会直接影响主成分的权值。因此,需要对输入模型的数据利用式(3) Z-score标准化处理。

[Z=X-μσ]  (4)

其中,[X]为原始数据,[μ]为各输入字段对应的均值,[σ]为个输入字段对应的标准差,[Z]为标准化处理后的数据。标准化后的数据输入主成分回归模型默认各个因子之间权重相等,不用考虑因子之间的差异和相互影响。

3.3 主成分-马尔可夫链模型

第一步,将标准化后的输入数据分为两部分,取近两年的作为测试集,其他数据作为训练集。

第二步,输入主成分模型做降维处理。利用Python进行主成分分析。15个影响因子,由于部分因子存在相关性的原因,经运算共有5个特征根。其中有三个成分的累计贡献率较大,可作为主成分。表1为提取主成分的总方差解释表。可得前三个成分的累计方差百分比已经达到93.67%,方差贡献率高,表示前三个因素所包含的信息量已经占了93.67%,可选前三个作为主成分。分别求出三个主成分的成分矩阵和各因子的特征值。得到由各因子组成的主成分表达式:

[W1=-0.1098Z1-0.0999Z2-0.1071Z3-0.1096Z4+0.0664Z5+0.1061Z6-0.1088Z7+0.0421Z8+0.0512Z9-0.0096Z10+0.0254Z11+0.1063Z12-0.0057Z13+0.0217Z14+0.0934Z15]

[W2=0.0019Z1+0.0725Z2-0.0413Z3+0.0187Z4+0.1505Z5-0.0528Z6+0.0321Z7-0.1567Z8-0.1262Z9-0.1021Z10-0.1218Z11+0.0543Z12+0.1818Z13+0.2047Z14+0.1088Z15]

[W3=0.0508Z1+0.0709Z2+0.0730Z3+0.0353Z4+0.0081Z5-0.0165Z6+0.0146Z7+0.1047Z8+0.1576Z9-0.4383Z10+0.3890Z11-0.0257Z12+0.2428Z13-0.0824Z14+0.0698Z15] (5)

由以上表达式可见,第一个主成分受经济因素影响比较大,第二个和第三个主成分受相关行业社会因素影响比较大。

上一篇 点击页面呼出菜单 下一篇