文献阅读Understanding and improving deep learning-based rolling bearing fault diagnosis with attention m

摘要：

近年来，深度学习在轴承故障诊断领域应用的很广泛，但是深度学习这个东西本身就像是“黑盒子”，目前来说没有合适的理论来解释深度学习为什么有效。因此本文通过在深度学习的基础上，引入注意力机制，并结合可视化技术来尝试解释这个原因。本文提出的基于深度学习的神经网络模型加上注意力机制，与其不同的方法模型进行比较，在测试上也有良好的效果，证明了可行性。

key words：注意力机制，可视化，BI-LSTM，包络谱

背景/问题：

尽管现在机器学习，深度学习等基于数据驱动的方法十分流行，但是在现实工业中，由于机器工作状态的变化、环境噪声的干扰等原因，训练和测试数据之间基本存在分布差异，导致诊断性能显著下降。这个具有挑战性的问题，即跨域故障诊断，近年来越来越受到关注。

因为可是解释性在学术研究中非常重要，因为对于“黑盒子”的解释，是本文研究的重点。

解决办法（创新点）：

（1）提出了一种基于深度学习的具有注意机制的轴承故障诊断方法

（2）将神经网络的全连接层之后，将注意力对输入数据的权重进行可视化。以说明深度学习为什么能work。

实现细节：

· 先给出不同轴承故障的特征频率计算公式。后续会根据这些公式得到的特定频率在可视化图中观察。

· 使用了BI-LSTM（使用双向的原因是，震动信号在频率之间往往有值得挖掘的信息，因此要双向进行提取特征）

先简单的介绍下LSTM

LSTM一种特殊的RNN网络，用来处对时序序列有要求的功能，该网络设计出来是为了解决长依赖问题，通过引入“门”的机制来更好的解决长依赖的问题。包括i（输入门），f(遗忘门

)，o（输出门）， C（记忆单元）。

其中C，可以理解为没有被归一化的一个量，他的更新有2种，（1）忘记之前的记忆，只和当前的输入X有关（2）忘记当前的X，只与之前的C-1相关。最后的更新是（1）和（2）的加权和

传统LSTM的一个缺点是只利用前面的信息进行计算。本研究主要利用频域信息进行特征提取，各频段之间存在潜在的联系。因此结合了LSTM和双向RNN就可以实现BI-LSTM。

· 注意力机制简单介绍

假设输入为，经过卷积和lstm后变为高维度的特征

注意力机制就是对于每个r用一种特定方法生成一个权重α（这篇文章用的是最基础的one- ayer neural network.），表示他们的重要程度，

最终的进行sofxmax分类之前的输入v则是，然后进行softmax

· 所提出的神经网络模型

值得注意的是，在输入数据x时，将同一个x复制3份，分别是振动信号，包络谱，频谱。其中建议将频谱作为模型输入，以提高诊断性能。另一方面，从振动数据和包络谱中学习到的知识可以得到更好的解释。

数据集来自流行的公共数据集CWRU（凯斯西储大学轴承数据集）和Train Bogie Dataset（列车转向架数据集）。

· 实验结果包括一下几个方面

1）注意力机制在振动信号上的显示

2）注意力机制在包络谱上的显示

3）注意力机制在频谱上的显示

4）输入数据为频谱时，这篇文章所提出的模型和其他方法进行诊断对比。

5）使用t-SNE技术展现所提出模型提取的高维度的特征，以及数据处理对实验的影响

（1）振动信号

可以观察到，振动信号中的峰值通常由注意机制捕获，这表明深层结构设法学习不同轴承健康状况的直接区分特征。

具体而言，当轴承处于健康状态时，振动较弱，且未观察到明显峰值。在这种情况下，学习到的注意力分散在输入数据序列的大部分片段上，这表明模型从振动数据中的一般模式中学习健康轴承状况的特征。

关于内圈故障，观察到振动峰值通常由注意机制捕获，这表明该模型能够从元件和故障之间的重复撞击中学习内圈故障的区别特征，特别是在严重故障条件下。对于初始故障条件下的分段，学习到的注意权重基本上彼此接近，这表明捕捉到的识别峰值很少，模型根据一般数据模式识别故障类别。这与早期故障通常没有明显特征，且难以诊断的事实相一致

关于滚珠故障，根据文献中当前的理解，钢球故障通常是最难诊断的。从图中可以看出，对于早期和严重的球故障，注意机制没有获得显著的特征，其注意几乎均匀地分布在一半信号上。结果表明，该方法对基于振动信号的球类故障信息数据段定位能力较差。

对于外圈故障，效果也不错，在波峰处的权重都比较高，同样的，故障初期特征还是比中期和晚期更难识别。

可以看到，随着训练迭代次数的增加，注意力机制逐渐聚焦在特定的波峰处，提现了深度神经网络对特征的识别。真正的故障诊断知识得以学习，

虽然这篇文章所提出的方法通常可以捕获鉴别特征，并且使用原始振动信号作为模型输入可以实现100%的训练精度，但对测试数据的诊断性能不是很有竞争力。本节中的结果主要提供了拟议注意机制实施的直观视图。

总之，对于这篇文章所提出的方法通常能够通过关注振动数据的峰值来区分不同的轴承健康状况，这表明了所提出的注意机制在从输入中定位鉴别信息方面的有效性。同时，在本案例研究中，通过深度神经网络学习的模式与人类关于轴承故障诊断的直接知识相一致。通过这种方式，可以使用注意机制来解释深度学习的“黑匣子”。

（2）包络谱，和振动信号类似，略

（3）频谱

可以看到，频谱在可视化中对，注意力机制的效果并不是很突出，许多波峰特征没有获得最高的权重。但是在实验测试阶段，他的效果比同类型的其他方法都要好。

实验对比了DNN,DCNN,与本文所提出的方法，在引入注意力机制和没引入的注意力机制的共6中情况。可以注意力机制对DCNN影响不大之外（这种现象可能是由于深卷积结构无法捕获序列信息，因此输入信号没有得到充分利用。频域中的序列信息非常重要，缺少这些信息通常会导致特征提取效率的下降。），对DNN和本文所提出的模型都有较大的提升。

此外，还进行轴承数据的跨域测试的比较。跨域就是测试和训练在不同的负载下进行，更符合实际的工况。在结果中，不同方法的测试精度通常处于较低水平。这是由于跨领域故障诊断问题的难度增加，因为训练和测试数据是在不同的轴承工作条件下收集的。该方法在测试精度方面明显优于其他比较方法，证明了该方法在跨领域提取代表性特征方面的有效性和鲁棒性。

总之，虽然在输入为频谱时，学习注意力的可视化似乎是随机的，但数值测试结果表明，所提出的方法在捕获频谱中的鉴别特征方面非常有效。此外，基于跨域测试性能，该方法在实际工业中具有很好的应用前景。

Case Western Reserve University的滚动轴承数据集在机械故障诊断研究中非常流行，近年来已报道了许多最新的故障诊断结果。这张表给出了所提出的方法与现有研究之间的比较。

一种有效的技术“t-SNE”通过将原始特征空间中的样本映射到二维空间图来可视化高维数据表示。首先采用主成分分析（PCA）将特征数据的维数降低到15，并抑制信号噪声。之后，使用技术“t-SNE”将15维学习表示转换为二维图

对于这篇文章中的大多数案例研究，通常可以获得接近100%的测试精度，并且相应的提取特征大部分分离得很好。因此，上图仅显示具有有限训练数据的相对困难的跨领域任务。不难看出引入了注意力机制后，特征更加分散，也更容易识别了。

此外，对初始振动信号进行分段（数据预处理），也能影响测试精度，如图所示，在跨域诊断且样本数较低的时候，分段数为4的效果最佳。

· 总结

本研究的结果表明，虽然文献普遍认为需要大量标记数据才能完全训练深层神经网络，但深层结构本质上可以被视为一种强大的特征提取工具，其目的是提取输入数据中最具辨别力的特征，而不是拟合一个高度复杂的函数。借助注意机制，可以有效地捕捉不同轴承健康状况的区别特征。这样，故障诊断问题就不需要大量的训练数据。

讨论与思考：

虽然这篇文章提出的方法已经取得了令人满意的结果，并且可以很好地理解振动信号和环境频谱的学习模式，但本研究的缺点在于，目前对频谱的信号处理不是很容易解释。后续可以开展进一步的研究，以更好地了解频域特征提取的潜在机制。

文献阅读Understanding and improving deep learning-based rolling bearing fault diagnosis with attention m

摘要：

背景/问题：

解决办法（创新点）：

实现细节：

生词：

相关

标签