融合数据与知识的轴承智能故障诊断
作者: 汤浩 徐幸 申莉 潘婷
摘要:针对复杂工况下轴承故障诊断的难题,文章提出了一种融合数据与知识的智能故障诊断方法。该方法首先利用经验模态分解(EMD) 对轴承振动信号进行预处理,然后基于支持向量机(SVM) 、随机森林(RF) 和 K 近邻(KNN) 等算法构建预选模型库,并通过网格搜索优化模型参数。最终,将模型输出结果与预先构建的轴承故障知识图谱关联,实现故障根因分析和辅助决策。实验结果表明,该方法在某轴承故障数据集上取得了 93.1% 的诊断准确率,有效提升了故障诊断效率和准确性。
关键词:支持向量机;随机森林;K 近邻算法;故障知识图谱;故障诊断
中图分类号:TP311 文献标识码:A
文章编号:1009-3044(2025)01-0121-06 开放科学(资源服务) 标识码(OSID) :
0 引言
轴承作为关键部件,其寿命和可靠性直接影响设备的整体性能。尤其在高转速、腐蚀性强、宽温域等严苛环境下,轴承的服役寿命将显著缩短。因此,如何有效地开展轴承故障诊断,并制定相应的维护策略,对于保障设备的稳定运行至关重要。
传统的设备维护策略经历了从事后维修到定期维修,再到视情维修的演变。事后维修适用于非关键设备,定期维修虽然可以减少突发故障,但存在过度维护和欠维护的问题。而视情维修则通过收集设备运行数据,预测潜在故障,从而实现更经济有效的维护。故障预测与健康管理(Prognostics and Health Man⁃agement,PHM) 技术是实现视情维修的关键。通过实时数据采集和分析,PHM 技术能够实现对系统的故障监测、诊断和预测[1-2]。自 20 世纪 90 年代中期提出以来[3],PHM 技术已成为研究热点,并在航空航天、能源等领域得到广泛应用。
具体而言,PHM 技术主要分为基于物理模型的方法、基于统计的方法和基于数据驱动的方法[4]。基于物理模型的方法通过结合设备故障失效模式,构建反映设备性能退化规律的数学模型,以实现诊断和预测[5-6]。然而,由于轴承运行工况复杂,力和载荷呈现非线性变化,导致建模的准确性受到限制。基于统计的故障诊断方法以统计理论为基础,利用快速傅里叶变换[7]、小波变换[8]、经验模态分解[9-10]和变分模态分解[11]等方法对轴承振动信号进行分析和处理,提取隐藏的故障特征[12]。这类方法具有数学理论严谨、适用性强的特点,但计算量较大。基于数据驱动的故障诊断方法则利用机器学习和深度学习等人工智能技术,对轴承振动信号进行特征提取和模式识别,从而实现快速诊断。这类方法不依赖于故障模式的准确识别,适用于各类复杂设备的故障诊断,且能有效降低计算复杂度,因此在轴承故障诊断中的应用最为广泛[13]。
在轴承故障诊断和根因分析中,大多数依赖专家的诊断经验和已有知识。然而,这些知识往往是零散的、碎片化的,难以被高效利用。Google 于 2012 年提出了知识图谱的概念,用于存储和表示大规模的语义信息,从而完善存储引擎[14]。知识图谱是一种结构化的语义知识库[15],能够对离散的、碎片化的、不同形式的知识进行有效的加工、处理和整合,转化为简单、清晰的三元组形式,进行知识的关联聚合,从而实现快速的知识查询与高效的路径推理。因此,通过构建轴承故障知识图谱以对知识进行有效的组织和管理,可以提高知识利用率,挖掘引发故障的深层次原因,实现精准的故障定位,进而提升故障诊断全流程的智能化水平,这已成为轴承故障诊断及运维决策的研究热点[16]。
为提高轴承故障诊断的准确性,并有效指导轴承运维决策,本文提出了一种融合数据与知识的轴承智能故障诊断方法。该方法通过将故障知识图谱中的故障现象与基于数据驱动的故障状态识别结果关联,实现轴承状态监测、故障诊断和处置决策的全过程健康管理。
1 基于融合数据与知识的轴承智能故障诊断模型
1.1 系统架构设计
本文提出了一种融合数据与知识的轴承故障诊断模型,如图 1 所示。首先,对轴承振动信号数据进行预处理,剔除信号噪声并将其转换为适用于模型训练的数据结构。随后,对预选模型库中的支持向量机(SVM) 、随机森林(RF) 、K 近邻(KNN) 等故障诊断模型进行训练,并通过参数寻优方法实现预置模型的自动优化。最后,基于轴承故障知识的抽取与融合,构建轴承故障知识图谱。结合故障诊断结果,系统能够识别故障根原因,并提出轴承健康状态的控制和优化建议,从而实现轴承故障诊断与维修保障的智能决策。
1.2 数据预处理
轴承数据的预处理操作分为3个步骤,分别为数据清洗层、数据分析层以及特征工程层,如图 2 所示。
数据清洗层主要通过对包含缺失值、异常值和重复值的数据进行空值清洗、野值剔除和数据过滤等操作,得到完备、正确的轴承数据集,从而减少数据采集过程中因环境噪声等因素对数据的影响。
数据分析层分为可视化分析和定量分析两个部分。首先,对数据在时间轴上进行可视化分布处理,分析数据的平稳性、趋势性、周期性和分散性特点。进一步,对不同类型的数据开展针对性的定量分析:对于平稳性好的数据,进行定量化的平滑性检验;对于近似正态分布的数据,进行正态性检测;对于具有线性趋势性的数据,进行差分分析以实现平滑处理;对于线性一致性强的二维散点数据,计算皮尔逊相关系数和斯皮尔曼相关系数;对于平稳性较差的数据,采用 FFT 变换、EMD 分解或小波包分解,分别分析其分解后的频率振幅、IMF 分量或不同滤波器下的分解系数。上述分析为特征向量的提取奠定了基础。
特征工程层是在数据预处理和数据分析的基础上,根据不同参数的分布特点提取数据特征。常见的特征提取方式包括:1) 对于平稳且具有统计分布特性的遥测参数,提取时域统计特征;2) 对于具有线性相关性的多变量,提取相关性特征;3) 对于在时域上变化具有一致性的参数,提取相似度特征;4) 对于非平稳的遥测参数,提取时频域特征。
需要注意的是,在特征提取后,可能会遇到特征样本过多或正负样本不均衡的情况。此时,可以通过样本重采样和均衡化方法,使不同模式之间的样本量趋于平衡,从而提高模型的训练效果。
1.3 故障诊断模型训练及评估
本文基于 K 近邻算法(KNN) 、支持向量机(SVM) 以及随机森林(RF) 算法构建预选模型库。随后,使用交叉验证和超参数寻优对模型进行参数优化,并利用准确率、精确率、召回率和 F1 指标等评估模型性能,以获取最佳模型,具体流程如图 3 所示。交叉验证是将经过处理后的轴承特征样本集分为训练集、验证集和测试集,利用若干组训练集对预选模型库中的模型进行训练,再通过验证集评估模型的准确率,取不同组准确率的平均值作为模型的性能指标,将其中超过准确率阈值的模型作为候选模型。
超参数寻优是通过网格搜索法或梯度下降法实现模型参数的优化。网格搜索法的速度较慢,但可以找到全局最优的超参数组合;梯度下降法的优化速度较快,但可能会陷入局部最优。由于轴承数据样本量相对较小,且初始模型候选参数较少,因此网格搜索法可在牺牲一定搜索效率的条件下,保证最佳的模型优化效果。
在使用超参数寻优得到模型的最优参数组合后,即可使用测试集对模型进行评估,通过准确率指标、F1 得分、召回率和精确率的值进行分析,确定模型是否可取。
本文将轴承故障诊断中应用最为广泛的 K 近邻算法、支持向量机和随机森林算法作为预选模型,下面对模型进行简要介绍。
1) 基于 K 近邻算法的轴承故障诊断技术。
K 近邻(KNN) 算法是通过查找训练样本中与测试样本最相似的k 个邻居,并根据这些邻居的类别来确定测试样本的类别。因此,最近邻个数是KNN算法中最关键的参数之一,它决定了在进行分类时,模型会参考的最近邻样本数量。凭借计算量小、灵活性高,以及对不同数据分布和数据特征适用性更强的优势,K近邻算法在文本分类、图像分类等模式识别领域得到了广泛应用。
本文利用 KNN算法分析轴承故障数据的特征分布,实现对轴承故障的分类识别。具体算法为:将轴承故障数据分为训练集和测试集,计算测试集样本与训练样本的相似度:
然后,根据结果进行相似度排序,将测试集样本分配到相似度值最大的类别中。
式中:ϒ为类别属性函数,如果该测试样本属于该类别,则函数值为1,否则为0。
2) 基于支持向量机的轴承故障诊断技术。
支持向量机(SVM) 算法常用于分类问题的监督学习,具有良好的高维特征处理能力、对噪声敏感度低以及计算成本低的特点。SVM 算法的参数主要受到C 参数、核函数和 gamma 参数的影响。C 参数控制模型的复杂度和对误分类的容忍度;核函数(如线性、RBF、多项式等) 根据数据的性质进行选择;gamma 参数决定了核函数的影响范围,从而影响模型的平滑性。
轴承数据信号往往包含大量特征和复杂模式,本文采用 SVM 算法对轴承数据进行分类,能够有效应对数据噪声和高维特征等问题,同时保持较高的准确性。假设有 K 个类别,SVM 会为每个类别训练一个二分类模型,将该类别的样本与其他所有类别的样本进行区分。在预测阶段,当一个新的样本输入时,所有 K 个分类器都会给出一个预测结果。每个分类器输出一个预测值,然后选择得分最高的分类器作为最终的分类结果。
3) 基于随机森林算法的轴承故障诊断技术。
随机森林算法(Random Forest,RF) 的主要思想是集成学习。通过多棵决策树的集成来实现高效的分类和回归任务,并通过随机采样和随机特征选择等技术提高模型的多样性,从而增强模型的稳定性和准确性。由于其强大的性能和较少的超参数调节需求,随机森林算法能够在大规模设备监测系统中实时提供故障诊断,适合在工业环境中长期运行。
RF 的算法参数主要受到以下因素的影响:树的数量(n_estimators) ,较多的树能够提高模型的稳定性;节点分裂所需的最小样本数(min_samples_split) ,该值越大,树的复杂性越小,有助于防止过拟合。本文将随机森林算法加入预选模型库中,以增强模型诊断的实时性和稳定性。
随机森林模型的主要步骤为:
①Bootstrap 采样:从原始训练数据集中随机选择n 个样本(有放回抽样) ,构建一个新的子数据集,用于训练一棵决策树。
②随机特征选择:每次划分节点时,随机选择m个特征,从中选择最优的特征进行划分,而非使用全部特征。
③生成决策树:利用选定的子数据集和特征集训练一棵决策树,直到满足树的停止条件(如树深度、叶节点数量、数据最小样本量等) 。
④重复过程:重复以上过程,生成多个决策树,最终得到一组独立的树。
⑤投票机制:对于新的输入样本,所有决策树对该样本进行分类,最终通过“投票”机制得出预测类别。即,每棵树对样本的预测值投票,最终选择票数最多的类别作为最终预测结果。
4) 模型评估。
对于训练好的模型,使用评估指标对模型进行评价,以确定模型的优劣。本文使用准确率、精确率、召回率和 F1 指标进行评价。
准确率的计算公式为:
准确率= 正确分类样本/总样本
精确率表示在所有被模型预测为正类的样本中,实际上为正类的样本比例:
准确率= 真正类(TP )/真正类(TP ) + 假正类(FP )
召回率表示在所有真实正类样本中,被正确识别出来的样本比例:
召回率= 真正类(TP )/真正类(TP ) + 假负类(FN )
F1指标是精确率和召回率的调和平均数,用以评估模型的总体效果: