基于改进GAN的断路器线圈电流数据增强方法
作者: 杜国庆 石颉
摘要:分合闸电流作为分析断路器操作机构电磁系统健康状态的关键参数,由于其故障数据稀缺,造成数据集不均衡,导致故障诊断的准确性受到影响。提出了基于改进GAN的断路器线圈电流数据增强方法,首先引入最小二乘法改进模型的损失函数,改善了原模型训练过程不稳定的问题;其次将数据连同其标签同时作为网络的输入进行训练,解决了传统GAN生成数据可控性差的问题。实验证明,该方法生成的样本与真实样本具有高度的相似性,可以很好地对不平衡数据集进行扩充与平衡。
关键词:生成对抗网络;最小二乘法;标签信息;数据增强;断路器;线圈电流
中图分类号:TP18 文献标识码:A文章编号:1009-3044(2023)16-0011-03
0 引言
低压断路器是保障低压配电系统安全的关键设备,其健康状态影响着配电系统的性能和稳定性[1]。
其中分合闸线圈电流能够很好地反映出低压断路器电磁系统参数变化以及故障的情况[2]。
随着机器学习的不断发展,目前许多机器学习方法都被广泛运用到故障诊断中[3],而机器学习从不平衡数据中提取的特征往往是不准确的,其判别结果往往趋向于多数类,故不平衡数据集极大限制了机器学习模型对故障的准确诊断[4]。传统对于数据集不平衡的问题,主要通过样本扩充[5]和改良诊断模型[6]两方面。虽然这些方法对不平衡数据集存在的问题做了改进,但还是难以生成逼真的样本数据。
生成对抗网络(Generative Adversarial Networks,Gan) 最初由Goodfellow等人提出,最近被广泛应用于对输入样本进行学习与训练[7],为了提高GAN训练过程的稳定性以及各类别的差异性,本文引入最小二乘损失函数与标签信息,首先通过将损失函数替换为最小二乘损失函数,提高了训练过程的稳定性;其次引入不同类型数据的标签,使得训练出来的数据更符合其标签描述,最后通过皮尔森相关系数、欧几里得距离和余弦相似度验证了生成数据的相似性。
1 理论基础
1.1 生成对抗网络
生成对抗网络的网络结构通常包括生成器与判别器两部分。其中生成器G输入简单的随机噪声,通过学习到与真实样本间的映射关系,输出尽可能真实的样本数据;而判别器D的任务是尽可能判别出生成的样本与真实的样本[8],其网络结构示意图如图1所示。通过两者的对抗博弈训练,不断优化各自性能,最后到达纳什平衡[9]。其目标函数公式如下:
1.2 最小二乘生成对抗网络
原始GAN由于采用交叉熵作为目标函数,在训练过程中可能由于生成样本与真实样本分布差异较大,导致训练过程中出现梯度消失的问题,从而导致生成的数据质量很差。故本文引入最小二乘生成对抗网络(Least Squares Generative Adversarial Networks,LSGAN) ,将GAN的目标函数由交叉熵改为最小二乘损失函数,解决了梯度易消失以及生成数据质量不高的问题。LSGAN的目标函数如式(2) 所示:
1.3 条件生成对抗网络
原始GAN只能保证生成的数据尽可能真实,但是忽略了生成的数据是否符合对其描述的要求。因此本文引入了条件生成对抗网络(Conditional GenerativeAdversarial nets, CGAN) ,将对样本描述的条件信息C作为输入,加入网络中进行一起训练,以此来指引GAN的生成方向,使得生成的样本数据更可控,更符合真实样本规律,其网络结构如图2所示。CGAN的目标函数公式如下:
2 实验验证
2.1 基于LSCGAN 的数据增强方法流程设计
基于最小二乘条件生成对抗网络的数据增强方法(Least Square Condition Generative Adversarial Net⁃works,LSCGAN) 流程设计主要分为三个环节:1)数据集准备;2)模型训练;3)模型测试。具体步骤描述如下:
1) 将采集的断路器分合闸线圈电流信号随机划分为训练集与测试集。
2) 设计生成器与判别器网络结构,并对模型参数初始化,以最小二乘作为损失函数。首先训练判别器50次使其具有稍好的判别功能,接着,让生成器与判别器进行对抗博弈训练,使两者达到纳什平衡,此时生成器生成的样本数据达到以假乱真的程度。
3) 使用生成器生成的数据与测试集进行对比,对两者的相似程度进行比较。
2.2 数据集介绍
本文以“CW1-1600”型低压万能式断路器为实验对象,通过NI USB-6002数据采集卡以50kHz进行ad采样,使用“CMS0 50NPT”型霍尔电流传感器采集分合闸线圈电流,采集了:0-正常工作;1-动作电压过低;2-合闸线圈老化;3-合闸铁芯空行程过大;4-铁芯卡涩状态下的分合闸线圈电流数据,其中正常工作状态100组,其余4种故障状态各25组,每组波形包含了10 000个采样点,各状态典型电流波形如图3所示。
2.3 评价指标为了评估生成样本与真实样本的相似性,本文通过皮尔森相关系数、欧几里得距离和余弦相似度三个指标展示生成样本的平均性能。
皮尔森相关系数用于度量两个向量之间的线性相关性,其值介于-1与1之间。相关系数越接近于1或-1,相关度越强;相关系数越接近于0,相关度越弱。
两个向量间的皮尔森相关系数计算公式如下:
欧几里得距离用于度量m 维空间中两个点之间的真实距离,它主要用于评价两个向量在位置上的差异性,其值越小,表示两者相似度越高。两个向量间的欧几里得距离计算公式如下:
余弦相似度将空间中两个向量夹角间的余弦值作为衡量两个个体之间差异的大小,余弦值接近1,夹角趋于0,表明两个向量越相似;余弦值接近于0,夹角趋于90度,表明两个向量越不相似。两个向量间的余弦相似度计算公式如下:
2.4 实验结果
本文实验基于PyTorch 开发环境搭建的网络模型,批处理量设为64,学习率设为0.000 1,迭代次数设为500,并使用SGD优化算法进行优化,训练集与验证集比例划分为7:3。最终训练完成的生成器生成的分合闸线圈各状态电流波形如图4所示。
为验证生成样本与真实样本的相似性,利用生成器生成的样本与测试集通过皮尔森相关系数、欧几里得距离和余弦相似度进行验证,为直观反映出各状态波形的相似性,通过引入混淆矩阵来展示每一个状态的相似程度,其中横轴表示生成样本的类型编号,纵轴表示真实样本的类型编号,如图5所示。从皮尔森相关系数可以看出,同类型生成与真实样本之间的皮尔森相关系数为0.999,而不同类型间的皮尔森系数偏小,说明同类型间的线性相关性较好。通过欧几里得距离可以很明显地看出,同类型间的欧几里得距离最小,且相差较大,说明同类型间的位置差异性较小。
通过余弦相似度可以看出,同类型间的余弦相似度最高,说明同类型间的方向差异性较小。由此可见,相同类型的生成样本与真实样本相似度较高,而不同类型间的差异较大,说明本文所提方法可以很好地学习到各类型真实样本的特征与差异,能够较好地完成对不平衡数据集进行扩充及平衡数据集的任务。
3 结论
本文提出了一种基于改进GAN的断路器线圈电流数据增强方法,该方法通过最小二乘替换原模型损失函数,提高了模型训练的稳定性;通过加入样本标签信息一起训练,提高了生成模型的可控性。通过皮尔森相关系数、欧几里得距离和余弦相似度这三个相似性指标验证了生成样本质量的可靠性。结果表明,本文所提方法可以作为低压断路器线圈电流数据增强的一种有效手段,具有一定的工程应用价值。
参考文献:
[1] 孙曙光,张伟,王景芹,等.基于动作过程振动检测的低压断路器机械寿命预测[J].仪器仪表学报,2020,41(12):146-157.
[2] 王天泽,陈尔东,吉小军.断路器分合闸线圈电流信号及其特征点采集系统设计[J].仪表技术与传感器,2021(10):47-51,64.
[3] 陈颢,王伏亮,李澄,等.基于KPCA-LSSVM的智能断路器故障诊断方法研究[J].自动化仪表,2021,42(12):19-22,32.
[4] 郭俊锋,王淼生,孙磊,等.基于生成对抗网络的滚动轴承不平衡数据集故障诊断新方法[J].计算机集成制造系统,2022,28(9):2825-2835.
[5] 刘可真,梁玉平,王科,等.基于数据过采样和深层特征提取的变压器故障诊断[J].电力科学与工程,2022,38(11):9-16.
[6] 姜明雪,杨有龙.基于密度峰值聚类和模糊支持度的boosting随机森林[J].南京大学学报(自然科学),2021,57(4):582-590.
[7] 徐林,郑晓彤,付博,等.基于改进GAN算法的电机轴承故障诊断方法[J].东北大学学报(自然科学版),2019,40(12):1679-1684.
[8] 李东东,刘宇航,赵阳,等.基于改进生成对抗网络的风机行星齿轮箱故障诊断方法[J].中国电机工程学报,2021,41(21):7496-7507.
[9] 刘云鹏,许自强,和家慧,等.基于条件式Wasserstein生成对抗网络的电力变压器故障样本增强技术[J].电网技术,2020,44(4):1505-1513.
【通联编辑:唐一东】