Workload Net在工作负荷检测中的应用
作者: 杨雨梁 袁之正 张智涵 周高杰
关键词: 工作负荷; 深度学习; 基础网络; 平行连接机制; 回归网络
中图分类号:TP18 文献标识码:A
文章编号:1009-3044(2024)18-0019-04
0 引言
工作负荷是衡量认知任务对心理资源需求的关键指标,对任务执行效率、认知表现及个体警觉性产生深远影响。在诸多领域如驾驶、医疗和航空等行业,过高的心理工作负荷可能导致严重后果,如安全事故的发生。因此,准确评估工作负荷状态并加以调整,对于提高反应能力、提供指导和帮助、优化情绪健康、减少错误和防止事故具有重大实践意义。
早期评估工作负荷主要依赖于主观量表,如NASA-TLX[1]。然而,主观评估受限于个体感知差异,缺乏实时性与客观性。相比之下,脑电图(EEG) 作为非侵入性、高时序分辨率的生理指标,展示出对工作负荷评估的巨大潜力。尤其在深度学习算法的支持下,通过分析EEG信号能够实时反映认知状态和负荷程度,克服主观评估的局限。然而,个体间大脑结构与功能的差异性意味着单个被试的数据可能无法全面反映群体规律。为此,跨被试分析和建模成为提升模型泛化能力和普适性的重要手段。
当前,大多数研究将工作负荷视为分类问题,但在实际场景中,其呈现出连续变化的特点,更适合回归分析框架。研究进展显示,Matthew S等人[2]借助高斯过程回归(Gaussian Process Regression, GPR) 实现了基于少量EEG 特征的高精度工作负荷预测;YufengKe等人[3]运用递归特征消除与支持向量机回归(Sup⁃port Vector Regression, SVR) 技术提高了模型在跨工作负荷任务场景下的识别性能;Yoji Yamashita等人[4]研发的1D CNN-LSTM模型直接从原始脑电图信号中评估工作负荷;Duanyang Yuan等人[5]提出了一种融合ResNet50与LSTM的回归模型以实现跨被试工作负荷疲劳检测。
鉴于机器学习在特征选择方面的严格要求以及深度学习在工作负荷研究中的广阔前景,本文旨在提出一种深度学习回归模型——Workload Net,为跨被试的工作负荷研究提供新的方向。
1 实验与方法
1.1 数据预处理
数据集为“模拟飞行驾驶工作负荷数据集”[6-7],实验场景设定为模拟飞行驾驶舱环境,选取七位健康且不具备模拟飞行经验的受试者参与实验。受试者需佩戴Oculus Rift虚拟现实设备,并通过操纵杆模拟操控飞机飞行。实验设置了三种不同阶段的模拟飞行任务关卡:初级阶段仅要求受试者观察飞机自动飞行过程,无须执行复杂操作,对应低水平工作负荷;中级阶段要求受试者遵循预定航线手动驾驶飞机,体现中等水平工作负荷;高级阶段则引入飞机控制系统故障的情景,导致飞机操控困难,受试者需竭力维持飞行稳定性并遵循既定航迹,代表高等水平工作负荷。每个难度等级的实验持续时长均为2分钟,总计形成一个完整的6分钟实验周期,每位受试者均重复完成了三次实验。
脑电信号数据作为自变量,通过62通道EEG设备以256 Hz的采样率进行同步记录。人为定义的工作负荷水平则作为因变量进行量化分析。具体量化标准如下:实验初级阶段对应的工作负荷水平设为1,中级阶段设为2,高级阶段设为3。
1.2 数据预处理
在数据预处理阶段,对每个受试者的EEG数据进行了一系列操作。首先,通过将每个受试者的EEG数据切割成2秒(512个时间点)的时间段,对数据集进行了裁剪,总共得到540个样本(每个样本的大小为62 个通道 × 512个时间点)。接下来,使用0.5到48赫兹的带通滤波器对数据进行滤波,以去除不相关的频率成分并减少噪声的影响。此外,还使用独立成分分析(ICA) 方法进一步去除可能的伪迹和其他噪声源。最后,为确保数据的可比性和一致性,使用Z-Score标准化方法对数据进行规范化。具体的规范化公式如下所示:
1.3 模型框架
鉴于跨被试研究中个体差异性所带来的预测挑战加剧,且手工特征具有主观性,不同个体间可能存在着最优特征表示方式的差异,人工提炼的特征可能无法全面揭示脑电图信号蕴含的复杂信息。为此,采用深度学习技术以自动化方式进行特征提取,旨在克服上述难题,力求实现对个体间工作负荷特征的精准捕获与有效分析。
1.3.1 基础网络
Workload Net采取了一种双阶段的方法来处理脑电信号。首先,针对每个大小为62×512的独立脑电数据样本,将其逐一馈入基础网络进行初步学习。这一流程已在图1中清晰展示。基于相对较小的可训练参数量及稳健的学习性能考量,选定EEGNet[8]作为基础网络。在预训练阶段结束后,为了维持前期获取的信息不变,采取了固定基础网络模型参数的策略,从而确保这些信息能够在后续分析中得到有效利用。
基础网络具体操作:首先,运用二维卷积运算及正则化技术,选用尺寸为1×16的卷积核,步长为1,并实施“Same”填充策略,保证输入与输出的空间维度保持一致,由此产生F1个特征图(F1设定为32) 。随后,这些特征被进一步送入一个深度卷积层中,该卷积的“深度”参数为D(D设定为8) ,并采用尺寸为62×1的卷积核,步长为1而不进行填充操作。紧接着进行正则化处理并应用指数线性单元(ELU) 激活函数以增强非线性表达能力。经过此过程后,特征通过一个平均池化层进行降维压缩,该池化层的核大小设定为1×4,步长为1,并结合一个随机丢失概率为0.5的Dropout函数,以随机忽略部分神经元输出,减少过拟合现象并增强模型的泛化能力。最终生成了D×F1个特征图。
最后,将提取到的特征图送入一个可分离卷积层以进行进一步的特征提取。该卷积层由深度卷积和逐点卷积组成,使用1×16大小的卷积核,步长为1,并采用“Same”填充策略以保持输入和输出的维度一致。随后,对经过该层处理后的特征进行正则化约束,并通过指数线性单元(ELU) 激活函数进行非线性激活,以增强特征的表达能力和区分度。
接下来是一个平均池化层,采用1×8的池化核大小和步长为1,并结合随机丢失概率为0.5的Dropout 函数。 这一系列操作最终生成了F2个特征图,其中F2的数量等于前一阶段生成的特征图数量D×F1,即256个特征图。这一步骤进一步提取了更深层次的特征,改善了特征的表达能力。
基于IITNet研究方法[9],睡眠分期评判中时间片段内及片段间的时序关系至关重要。同理,工作负荷范式同样引发脑电活动的阶段性变化。因此,借鉴此观点,将其时序信息的处理方式应用于工作负荷回归任务中,旨在挖掘并利用脑电活动随负荷变化的阶段性的特点,以优化工作负荷状态的连续评估。为此,笔者设计并实施了第二阶段训练过程,如图2所示,采用了将单个样本聚合为连续长样本的策略,并将这种长样本用作模型输入。以样本Xi 为例,构建的长样本由连续的k 个基础样本构成,其中k 在本研究中设定为5。
具体来说,长样本由Xi - k + 1, Xi - k + 2...Xi 组成。然而,在序列初始阶段,当样本索引i 小于k 时,无法形成完整的包含k 个样本的长样本。对此特殊情况,模型适应性地采用至多k 个样本组成的长样本子来进行训练和预测。值得强调的是,即使在组合而成的长样本中,每一个单独样本依然与其原始标签保持一一对应关系。
Workload Net的整体结构如图3所示。在图3(i) 部分,展示了将长样本输入到参数已冻结的基础网络中。借助卷积运算能够有效应对和处理变长数据序列的固有优势,网络能够学习长样本中时间片段之间的信息。
1.3.2 平行连接机制
图3(ii)部分展示了平行连接机制,借鉴了图像处理领域中广泛应用的特征金字塔理念[10],旨在从不同层次和多种尺度上提取并整合特征,以优化对细微特征和全局上下文信息的捕捉效果。因此,该框架策略性地选择了从基础网络中抽取的第二层和第三层特征图作为进一步处理的核心,旨在实现对多尺度特征的有效学习。相反,未考虑利用第一层卷积提取的特征图,因为第一层卷积所捕获的特征往往包含大量冗余信息,对当前任务的实际贡献有限。
接下来,对选定的特征图进行了合理的维度重塑操作。具体来说,将第二层特征矩阵的维度重构为F2×(k×512//4),同时将第三层特征矩阵重塑为F2×(k×512//32)的维度结构。其中,“//”符号表示向下取整的除法运算。
随后,运用自适应池化层对每一层特征矩阵进行操作,将它们转换为k 个维度为F3的特征向量。接下来,通过一个线性解码器,即全连接层,并配合sigmoid 激活函数,分别从所对应的特征矩阵中生成k 个预测值,并将这两层的输出结果进行平均,最后为每个样本得到对应的预测值。
在采取滑动窗口策略构建长样本时,不可避免造成单个样本预测结果可能出现最多k 次的冗余再现现象。鉴于此,为了消除这种重复预测所带来的潜在偏差并提炼出更为准确的单一预测指标,笔者采取了对同一样本所有独立预测结果实施均值聚合的操作。
2 实验结果
2.1 模型训练
在模型训练阶段,采用了经过改良的 Adam 优化算法,即 RAdam 优化器,该优化器在实践中展现出了更为稳健的优化表现。设定学习率为 0.001,同时引入指数衰减率 0.96 以调控学习率的变化趋势。实验中,将批次大小设定为 64。损失函数采用均方误差(MSE) ,持续迭代优化模型参数,旨在最大程度地降低该损失函数的值,从而提升模型的整体性能和预测准确性,计算公式如下:
针对此项任务,遵循严格的实验设计原则,采取Leave-One-Subject-Out (LOSO) 的交叉验证策略,即将每位受试者的数据视为独立的测试集,而其余六位受试者的数据合并构成训练集,以此检验模型在未知受试者数据上的泛化能力。
2.2 对比结果
通过对表1和表2中数据的深入分析,我们发现Workload Net 模型在采用 MSE 和 MAE 评估指标时,均取得了优异的表现,其 MSE 值为 0.3066,MAE 值为 0.5387,这揭示了该模型在预测心理负荷时的误差较小,能够精确反映出不同受试者的心理负荷状态。同样表现出色的是 ResNet50-LSTM模型,其 MSE 值为 0.3089,MAE 值为 0.5461,表现出仅次于 Work⁃load Net模型的良好预测性能。
然而,值得注意的是,在跨受试者评估情境下,传统的机器学习算法,尤其是GPR算法,其性能表现相对较差,其 MSE 和 MAE数值分别为 0.3548和 0.6106,远高于 Workload Net 模型。
3结束语
Workload Net 模型采用了卷积神经网络进行特征抽取,并融入了特征金字塔结构以捕获多尺度的内在特征表达。这些特征随后被馈送到回归网络中进行学习。值得注意的是,该模型的构建还关注了时间片段内与片段间的时序信息。经过与相应算法进行对比,Workload Net 模型得到了最佳的性能,也为该领域的进一步探索提供了新的理论参考与实践指导。