论文翻译:2019_Deep Multitask Acoustic Echo Cancellation


论文地址:https://www.researchgate.net/publication/335828968_Deep_Multitask_Acoustic_Echo_Cancellation

深度多任务声回声消除

摘要

  声学回声消除或抑制方法旨在抑制扬声器与麦克风之间的声耦合产生的回声。传统的回声估计方法采用自适应滤波。由于远端信号声路的非线性,需要进一步的后处理来衰减这些非线性分量。本文提出了一种基于深度门控循环神经网络的麦克风信号的近端信号估计方法。利用多任务学习对该体系结构进行训练,学习估计回声的辅助任务,以改进估计干净的近端语音信号的主要任务。实验结果表明,我们提出的基于深度学习的方法在单说话时段的回声损耗增强(ERLE)和双说话时段的语音质量感知评价(PESQ)评分方面优于现有的看不见说话人的方法。

摘要:非线性回声消除,深度学习,门控循环神经网络,循环神经网络,门控循环单元

1 引言

  当扬声器发出的远端信号耦合回近点的麦克风时,就会产生声学回声。因此,远端用户听到的是近端信号和他自己声音的延迟和修改版本的混合,称为声学回声。回声消除器(AEC)或抑制器(AES)的目标是在不失真的情况下减少这种回声。传统的方法是通过自适应滤波器[1]来估计回声路径来解决这个问题。由于这些方法大多假定声回声和远端信号之间存在线性关系,通常采用非线性后滤波来抑制残留的残余回声[2][3]。

  神经网络在过去的[4]中被用作非线性后滤波。然而,在当时,由于计算能力和训练数据大小的限制,导致了相对较小的网络实现和有限的整体AEC性能。近年来,深度学习在各种语音处理任务[5][6][7][8]中显示出了巨大的潜力,但考虑到声学回声消除的工作并不多。Lee等人[9]使用深度神经网络(DNN)估计残差回声抑制的增益。循环神经网络(RNNs)在序列建模任务(如自然语言处理(NLP))中表现出了巨大的成功,特别是当它们被用于编码器-解码器框架[10]或作为序列学习机器[11]时。RNN在这些框架中特别强大,因为它们能够高度建模这些任务中固有的丰富上下文依赖关系。最近,Zhang和Wang[12]利用双向长期记忆(BLSTM)从麦克风和远端信号的特征来预测掩码,然后利用该掩码重新合成近端语音信号。为了实现回声估计,在双讲期间,传统的方法通常需要双讲检测器(DTD),当近端和远端信号同时出现时,停止滤波器自适应。相比之下,一些基于深度学习的回声消除系统不需要单独的DTD模块来消除声波回声[9][12]。

  本文提出了一种新的用于声回声消除的循环网络。更具体地说,我们采用编码解码器结构的深门控循环单元(GRU)[10][13]网络,将麦克风和远端信号的光谱特征映射到超空间,然后从编码的超空间中解码近端信号的目标光谱特征。利用多任务学习对该体系结构进行训练,学习估计回声的辅助任务,以改进估计干净的近端语音信号的主要任务。实验结果表明,该模型可以在不需要单独的DTD的情况下,在单话音和双话音周期内消除声回声。

  本文其余部分的结构如下。我们首先在第2节中给出这个问题的正式定义。然后,我们在第3节介绍我们的上下文感知多任务循环网络,然后在第4节介绍实验设置和结果。最后,我们在第5节中总结。

2 问题陈述

  设\(v(t)\)\(t\)时刻的任意时域信号,系统模型和提出的解如图1所示。麦克风信号\(d(t)\)由近端语音信号\(s(t)\)和声学回声\(y(t)\)组成:

\[d(t)=s(t)+y(t)  (1) \]

  声回声信号是对远端语音信号\(x(t)\)的改进版本并包括房间脉冲响应(RIR)和扬声器失真。

图1 深度多任务声回声消除图

  声波回声消除问题是在去除任何由远端信号引起的回声后,重新得到干净的近端信号。传统的系统用线性自适应滤波器估计回回声路径模型,然后从麦克风信号中减去估计的回声。在此基础上,进一步采用残差回声抑制器(RES)来改善近端信号。在频域,分辨率通常是通过维纳滤波器或谱减法来实现的。AEC系统的最终输出估计为近端信号\(q(t)\)

  回声损耗增强度量(ERLE)通常用于评估系统在没有近端信号的单讲情况下实现的回声减少。ERLE定义为:

\[E R L E(\mathrm{~dB})=10 \log _{10} \frac{E\left\{d^{2}(t)\right\}}{E\left\{\mathrm{q}^{2}(t)\right\}}  (2) \]

式中,E是通过平均实现的统计期望操作。

  为了评价系统在双讲阶段的性能,通常采用语音质量感知评价(PESQ)。PESQ仅通过将预估的接近结束语音与双讲期间的ground-truth接近结束语音进行比较来计算。PESQ评分范围为-0.5 ~ 4.5,分数越高质量越好。

  我们假设音频信号在16khz采样。光谱特征向量使用512点短时傅里叶变换(STFT)计算,帧移256点(16ms)。通过去除共轭对称的一半,512点的STFT幅度向量降为257点。对STFT幅值进行对数运算,得到最终的对数幅谱特征向量。使用从训练数据计算的标量,输入特征被标准化为具有零均值和单位方差。\(v(t)\)在帧k和频率点f处的STFT复值谱记为\(V_{k, f}\)。它的相位表示为\(\angle V_{k, f}\),它的对数大小用\(\tilde{V}_{k, f}\)表示。让\(\widetilde{V}_{k}\)为所有频率点和帧k的对数幅值向量。

3 方法提出

  在本文中,我们提出使用上下文感知的多任务门控RNN来估计近端语音信号。具体来说,我们使用的是对数谱特征的远端语音x和麦克风d作为输入。目标输出包括真实回声信号的对数光谱特征和近端语音信号s。该架构通过联合优化加权损耗来估计近端语音和回声信号。利用估计回声得到的信息来更好地估计近端语音。据我们所知,本文是第一个提出用于AEC的多任务网络。

  图2描述了提议的多任务AEC框架。回声估计模块由两层堆叠的GRU网络组成,训练生成一个估计值\(\widetilde{\boldsymbol{V}}_{k}\)回声信号。最后一层GRU的输出从这个网络馈送到另一个三层堆叠的GRU网络与\(\widetilde{\boldsymbol{D}}_{k}\)\(\widetilde{\boldsymbol{X}}_{k}\)并回归到\(\widetilde{\boldsymbol{Q}}_{k}\),它是对近端信号的对数谱幅值的估计。

  时域信号可以由\(\widetilde{\boldsymbol{Q}}_{k}\)并利用短时傅里叶反变换(iSTFT)或Griffin-Lim算法[14]对麦克风信号进行相位分析。为了简单起见,我们只展示了使用iSTFT重构的结果。

图2 提出的用于回声和近端信号估计的多任务展开GRU网络

3.1 因果上下文感知的输入和输出

  以前的研究表明,使用过去和/或未来的帧可以帮助对语音处理应用[15]的当前帧进行估计。然而,固定的上下文窗口通常用作全连接层[16]的输入。在这些方法中,上下文信息可能会在第一层之后丢失,因为信息会流经更深的层。在他的研究中,我们在网络的输入和输出中都使用了上下文特征,以保持整个网络的上下文信息。当前时间的输入特征由当前帧的特征向量和之前六帧的特征向量组成。选择因果窗口是为了防止额外的延迟。有50%重叠的七帧产生了一个112ms的接受场,足够长来处理语音信号。为了融入上下文感知,我们为回声估计模块和近端估计模块分别部署了7个时间步长的展开深度GRU网络,如图2所示。

  该网络的输出还包括当前帧特征向量和之前的六帧。在训练过程中,每一个帧都针对它们自己的目标进行优化。这有助于模型根据目标的上下文了解权重。在推理时间中,最后一帧仅作为模型的输出。

3.2 基于多任务GRU的AEC

  我们提出的AEC方法的基础模型架构由GRU的一个变体组成。更具体地说,GRUs有以下输出激活:

\[\mathbf{h}_{k}=\mathbf{z}_{k} \odot \mathbf{h}_{k-1}+\left(1-\mathbf{z}_{k}\right) \odot \hat{\mathbf{h}}_{k}  (3) \]

其中\(\odot\)是element-wise的乘法,以及更新门\(\mathbf{Z}_{k}\)是:

\[\mathbf{z}_{k}=\sigma\left(\mathbf{W}_{z} \widetilde{\boldsymbol{X}}_{k}+\mathbf{U}_{z} \mathbf{h}_{k-1}\right)  (4) \]

其中\(\sigma\)是sigmoid函数。候选隐藏状态\(\hat{\mathbf{h}}_{k}\)通过计算:

\[\hat{\mathbf{h}}_{k}=\operatorname{elu}\left(\mathbf{W} \widetilde{\boldsymbol{X}}_{k}+\mathbf{U}\left(\mathbf{r}_{k} \odot \mathbf{h}_{k-1}\right)\right)  (5) \]

其中elu是指数线性单位函数且复位门\(\mathbf{r}_{k}\)通过计算:

\[\mathbf{r}_{k}=\sigma\left(\mathbf{W}_{r} \widetilde{\boldsymbol{X}}_{k}+\mathbf{U}_{r} \mathbf{h}_{k-1}\right)  (6) \]

其中,\(\mathbf{U}, \mathbf{W}, \mathbf{U}_{r}, \mathbf{W}_{r}, \mathbf{U}_{z}\), 和 \(\mathbf{W}_{z}\)为GRUs的内部权重矩阵。

  我们的深度学习AEC模型由两个堆叠的GRU网络组成。第一个堆栈接受上下文感知框架\(\widetilde{\boldsymbol{X}}_{k}\)作为每个GRU的输入,并使用线性激活的全连接(FC)输出层估算\(\widetilde{\boldsymbol{V}}_{k}\)。最后一个GRU层的输出从第一个堆栈得到连接上下文感知帧\(\widetilde{\boldsymbol{X}}_{k}\)\(\widetilde{\boldsymbol{D}}_{k}\)为第二个堆栈的第一个GRU层创建7×1514维度的输入。第二堆栈由3个GRU层和一个FC层组成,线性激活来估计上下文组件帧的\(\widetilde{\boldsymbol{Q}}_{k}\)估计的近端语音。在图2中,\(\widetilde{\boldsymbol{X}}_{k}\)是帧K的一个大小为257的特征向量,和\(\mathbf{h}_{k}^{1}\)为第一层GRU的输出向量,大小为1000。每个层的输出尺寸如图2所示。

  使用AMSGrad优化[17](Adam variant[18])训练所有模型,设置\(\beta_{1}=0.9, \beta_{2}=0.999\)\(\epsilon=10^{-3}\)为100个epoch,批量大小为100。所有层的权值用Xavier方法[19]初始化,并将偏差设为零。我们将学习速率设置为0.0003。为了避免过拟合,我们对正则化常数为0.000001的所有权值使用L2正则化。

3.3 加权损失函数

  语音处理应用中一个常见的损失函数是均方误差(MSE)[12],它是在特征域(通常是STFT)中从地真源s和网络估计输出q之间计算出来的。由于估计回波路径信号可以提供更多信息来确定网络权重(就像在卷积解决方案中一样),我们提出了一个加权损失函数来使用该信息。这个函数是联合优化的:

\[\operatorname{loss}_{k}=\beta \sum_{n=0}^{6}\left\|\tilde{S}_{k-n}-\widetilde{\boldsymbol{Q}}_{k-n}\right\|_{1}+(1-\beta) \sum_{n=0}^{6}\left\|\widetilde{\boldsymbol{Y}}_{k-n}-\widetilde{\boldsymbol{V}}_{k-n}\right\|_{1}  (7) \]

其中,\(\beta\)是权重因子。

4 实验结果

4.1 数据集的准备

  我们使用TIMIT数据集[20]来评估AEC的性能。我们创建了与[12]中报告的数据集相似的数据集,具体采取了以下步骤:从TIMIT的630个扬声器中,随机选择100对扬声器(40 male-female, 30 male-male, 30 female-female)作为远端和近端扬声器。随机选择同一个远端说话者的三种话语,然后连接起来形成一个远端信号。通过填充前面和后面的零,一个近端扬声器的每一个语音都被扩展到与远端信号相同的大小。使用7个近端扬声器的声音产生3500个训练混合物,每个近端信号与5个不同的远端信号混合。

  从剩下的430个扬声器中,我们随机挑选了另外100对作为远端和近端扬声器。我们按照上述相同的步骤进行,但这一次只使用近端扬声器的三种声音来生成300个测试混合物,其中每个近端信号与一个远端信号混合。因此,测试混合物来自未经训练的演讲者。

  对远端信号进行如下处理,模拟[21]中的非线性回声路径。对于回回声路径的非线性模型,我们首先应用硬削法来模拟扬声器(\(x_{\max }\)设置为输入信号最大音量的80%):

\[x_{c l i p}(t)=\left\{\begin{array}{c} -x_{\max } \text { if } x(t)<-x_{\max } \\ x(t) \text { if }|x(t)| \leq x_{\max } \\ x_{\max } \text { if } x(t)>x_{\max } \end{array}\right.  (8) \]

  然后,为了模拟扬声器失真,我们应用如下的sigmoid函数:

\[x_{n l}(t)=4\left(\frac{2}{1+\exp (-a . b(t))}-1\right)  (9) \]

其中,\(b(t)=1.5 x_{\text {clip }}(t)-0.3 x_{\text {clip }}(t)^{2}\) 并且如果\(b(t)>0\)\(a=4\)否则\(a=0.5\)。最后,将sigmoidal函数的输出与随机选择的RIR\(g(t)\)去模拟远端信号在室内的声传输:

\[y_{n l}(t)=x_{n l}(t) * g(t)  (10) \]

其中*表示卷积。RIRs的长度设置为512,模拟室大小为\(4 \mathrm{~m} \times 4 \mathrm{~m} \times 3 \mathrm{~m}\),麦克风固定在[2 2 1.5]m的位置,扬声器随机放置在7个距离麦克风1.5m的位置。利用图像法[22]生成RIRs,混响时间(\(T_{60}\))为200ms。从7个RIRs中,我们使用前6个RIRs生成训练数据,最后一个用于生成测试数据。我们还建模了一个线性回回声路径,只将远端信号与RIR卷积产生回声信号,该模型不考虑剪辑和扬声器失真:

\[y_{\operatorname{lin}}(t)=x(t) * g(t)  (11) \]

  对于训练混合物,我们通过将近端语音信号与回声信号混合,在\(\{-6,-3,0,3,6\} \mathrm{dB}\)中随机选择产生信号与回声比(SER)水平的麦克风信号。用户服务水平是根据“双讲”时段计算的:

\[\operatorname{SER}(\mathrm{dB})=10 \log _{10} \frac{E\left\{s^{2}(t)\right\}}{E\left\{\mathrm{y}^{2}(t)\right\}}  (12) \]

  
  对于测试混合物,我们在3个不同的SER级别(0dB、3.5dB和7dB)下生成麦克风信号。在SER水平为0dB、3.5dB和7dB时,未处理混合样本的PESQ得分线性模型为1.87、2.11和2.34,非线性模型为1.78、2.03和2.26。未处理的PESQ分数是通过比较麦克风信号和双话期间的近端信号来计算的。

4.2 数值结果

  作为基准系统,我们使用频域归一化最小均方(NLMS)作为AES[23]。基于麦克风信号和远端信号的能量,采用了DTD算法。在[24]中提出的方法的基础上,我们进一步应用了一种RES算法。我们还将我们的结果与[12]中报道的双向长短时记忆(BLSTM)方法进行了比较。

  我们首先利用声道的线性模型来评估我们所提出的方法。表1给出了常规基准、BLSTM和我们提出的上下文感知的多任务GRU的ERLE平均值和PESQ增益,记为CA multitask GRU。PESQ增益计算为每种方法的PESQ值与其未处理的PESQ值之差。该表还显示了上下文感知的单任务GRU(表示为“CA single task GRU”)的结果,它只使用GRU层的第二个堆栈\(\widetilde{\boldsymbol{D}}_{k}\)\(\widetilde{\boldsymbol{X}}_{k}\)作为输入,损失函数的计算仅通过惩罚网络输出对ground-truth的近端语音特征向量。结果表明,多任务GRU在PESQ和ERLE方面均优于单任务GRU。结果表明,该方法在所有条件下均优于传统的AES+RES和BLSTM方法。

表1 声学路径线性模型的ERLE和PESQ得分

表2 声学路径非线性模型的ERLE和PESQ得分。

  我们进一步研究了回回声路径非线性模型对我们方法的影响。在这组实验中,我们使用了\(y_{n l}(t)\)因此,在产生麦克风信号时,我们的模型包含了功率放大器剪辑和扬声器失真。我们再次比较了我们的方法与传统AES+RES的结果。我们还将我们的结果与[9]中提出的使用基于DNN的正则的AES进行了比较,该正则表示为“AES+DNN”。结果表明,该方法在PESQ和ERLE方面都优于其他两种方法。图3中的声谱图展示了一个使用我们提出的带有0dB SER的非线性回回声路径模型的深度多任务AEC示例。显然,该方法在无明显近端失真的情况下获得了较好的回声抑制效果。

图3 声学路径非线性模型和0dB SER中麦克风、估计近端和近端信号的谱图

  我们也评估了我们所提出的方法的性能存在的加性噪声和非线性的回回声路径模型。在生成训练数据时,我们在10dB信噪比水平添加白噪声,在3.5dB SER水平添加非线性回回声路径。我们将我们的方法与传统的AES+RES进行了比较。我们的基于多任务的方法比传统方法有很大的优势,如表3所示。

表3 回声路径非线性模型(SER=3.5dB)和加性噪声(SNR =10dB)下的ERLE和PESQ得分。

5 总结

  我们提出了一种用于AEC的深度多任务循环神经网络,该网络在单说话和双说话两种情况下都有很好的表现。我们展示了同时对回声和近端信号进行端到端多任务学习的优势。我们还演示了在估计纯净的近端信号时,具有低延迟因果上下文窗口的优势,以提高上下文感知。在参考数据集上比较,我们提出的多任务AEC网络能比其他方法更显著地减少回声,并且对加性背景噪声有较强的鲁棒性。在未来的工作中,我们打算在更严重的背景噪声环境中探索AEC。

6 参考文献

[1] E. H?nsler and G. Schmidt, Acoustic Echo and Noise Control: A Practical Approach, Adaptive and learning systems for signal processing, communications, and control. Hoboken, N.J, USA: Wiley-Interscience, 2004.
[2] S. Gustafsson, R. Martin, and P. Vary, “Combined acoustic echo control and noise reduction for hands-free telephony,” Signal Processing, vol. 64, no. 1, pp. 21–32, 1998.
[3] V. Turbin, A. Gilloire, and P. Scalart, “Comparison of three postfiltering algorithms for residual acoustic echo reduction,” in Proc. IEEE International Conference on Acoustics, Speech, and Signal Processing, 1997, pp. 307–310.
[4] A. Schwarz, C. Hofmann, and W. Kellermann, “Spectral featurebased nonlinear residual echo suppression,” in Proc. Applications of Signal Processing to Audio and Acoustics (WASPAA), 2013, pp. 1-4.
[5] G. Hinton, L. Deng, G. E. Dahl, A. Mohamed, N. Jaitly, A. Senior, V. Vanhoucke, P. Nguyen, T. Sainath, and B. Kingsbury, “Deep neural networks for acoustic modeling in speech recognition,” IEEE Signal Processing Magazine, vol. 29, no. 6, pp.82–97, 2012.
[6] Y. Wang and D. L. Wang, “Towards scaling up classificationbased speech separation,” IEEE Transactions on Acoustics, Speech and Signal Processing, vol. 21, no. 7, pp. 1381–1390, 2013.
[7] X. Lu, Y. Tsao, S. Matsuda, and C. Hori, “Speech enhancement based on deep denoising autoencoder,” in Proc. Annual Conference of the International Speech Communication Association, 2013, pp. 555–559.
[8] Y. Xu, J. Du, L.-R. Dai, and C.-H. Lee, “An experimental study on speech enhancement based on deep neural networks,” IEEE Signal Processing Letters, vol. 21, no. 1, pp. 65–68, 2014.
[9] C. M. Lee, J. W. Shin, and N. S. Kim, “DNN-based residual echo suppression,” in Proc. Annual Conference of the International Speech Communication Association, 2015, pp. 1775–1779.
[10] K. Cho, B. van Merri?nboer, C. Gulcehre, D. Bahdanau, F. Bougares, H. Schwen, and Y. Bengio, “Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation,” in Proc. Empirical Methods in Natural Language Processing, 2014, pp. 1724–1734.
[11] I. Sutskever, O. Vinyals, and Q. V. Le, “Sequence to sequence learning with neural networks,” in Proc. Advances Neural Information Processing Systems, 2014, pp. 3104–3112.
[12] H. Zhang and D. Wang, “Deep Learning for Acoustic Echo Cancellation in Noisy and Double-Talk Scenarios,” in Proc. Annual Conference of the International Speech Communication Association, 2018, pp. 3239-3243.
[13] J. Chung, C. Gulcehre, K. Cho, and Y. Bengio, “Empirical evaluation of gated recurrent neural networks on sequence modeling,” in Proc. NIPS Deep Learning Workshop, 2014.
[14] D. Griffin and J. Lim, “Signal estimation from modified shorttime fourier transform,” IEEE Transactions on Acoustics, Speech, and Signal Processing, vol. 32, no. 2, pp. 236–243, 1984.
[15] F. Santos and T. H. Falk., “Speech Dereverberation With ContextAware Recurrent Neural Networks,” IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 26, no 7, pp. 1236–1246, 2018.
[16] K. Han, Y. Wang, D. Wang, W. S. Woods, I. Merks, and T. Zhang, “Learning spectral mapping for speech dereverberation and denoising,” IEEE Transactions on Audio, Speech, and Language Processing, vol. 23, no. 6, pp. 982–992, 2015.
[17] S. J. Reddi, S. Kale, and S. Kumar, “On the convergence of Adam and beyond,” in International Conference on Learning Representations (ICLR), 2018.
[18] D. P. Kingma and J. L. Ba, “Adam: a method for stochastic optimization,” in International Conference on Learning Representations (ICLR), 2015.
[19] X. Glorot, and Y. Bengio, “Understanding the difficulty of training deep feedforward neural networks,” in Proc. International Conference on Artificial Intelligence and Statistics, 2010, pp. 249-256.
[20] . F. Lamel, R. H. Kassel, and S. Seneff, “Speech database development: Design and analysis of the acoustic-phonetic corpus,” in Speech Input/Output Assessment and Speech Databases, 1989.
[21] S. Malik and G. Enzner, “State-space frequency-domain adaptive filtering for nonlinear acoustic echo cancellation,” IEEE Transactions on audio, speech, and language processing, vol. 20, no. 7, pp. 2065–2079, 2012.
[22] J. B. Allen, D. A. Berkley, “Image method for efficiently simulating small-room acoustics,” The Journal of Acoustic Society of America, vol. 65, no. 4, pp. 943-950, 1979.
[23] C. Faller and J. Chen, “Suppressing acoustic echo in a spectral envelope space,” IEEE Transactions on Acoustic, Speech and Signal Processing, vol. 13, no. 5, pp. 1048–1062, 2005.
[24] R. Martin and S. Gustafsson, “The echo shaping approach to acoustic echo control”, Speech Communication, vol. 20, no. 3-4, pp. 181-190, 1996.