论文翻译:2019_Deep Learning for Joint Acoustic Echo and Noise Cancellation with Nonlinear Distortions


https://www.researchgate.net/publication/333825248_Deep_Learning_for_Joint_Acoustic_Echo_and_Noise_Cancellation_with_Nonlinear_Distortions

深度学习用于非线性失真的联合声学回声和噪声消除

摘要

  我们将声学回声和噪声消除共同公式化为基于深度学习的语音分离,其中近端语音与单个麦克风录音分离并发送到远端。我们提出了一个因果系统来解决此问题,该系统包含卷积递归网络(CRN)和具有长短期记忆的递归网络(LSTM)。该系统经过训练,可以估计近端语音的真实和虚构的频谱图,并根据麦克风信号和远端信号检测近端语音的活动。随后,使用估计的实部和虚部频谱图来分离近端信号,从而消除回声和噪声。训练好的近端语音检测器用于进一步抑制残留的回声和噪声。评估结果表明,该方法在模拟和测量的房间脉冲响应(RIR)都存在非线性失真的情况下,可以有效地消除声学回声和背景噪声。此外,所提出的方法可以很好地推广到未经训练的噪声,RIR和扬声器。

关键字:声学回声消除,监督语音分离,深度学习,复杂谱映射,非线性失真

1 引言

  当扬声器和麦克风在通信系统中耦合时,出现声学回声,使得麦克风接收扬声器信号加上其混响。如果未正确处理,系统远端的用户可以通过系统(即回声)的往返时间延迟他或她自己的声音,与来自近端的目标语音信号混合。传统的声学回声消除(AEC)通过使用自适应算法识别房间脉冲响应来工作[1]。在文献中提出了许多算法[1-4]。然而,这些算法的性能受到双讲(近端和远端扬声器的存在)的限制,背景噪声(特别是非固定噪声)和非线性失真。

  双讲问题的典型方法是使用双通话检测器[5]或双通稳定的AEC算法[6]。在嘈杂的环境中,通常使用过滤后[7,8],卡尔曼滤波[9]和基于光谱修改的声学回声抑制(AES)算法[10-12]。引入非线性失真主要是由于放大器和扬声器等电子设备的质量差。传统的AEC算法基本上是线性系统,其遭受非线性失真。为了解决非线性失真问题,最近已经研究了诸如自适应Volterra滤波器[13]和功能链路自适应滤波器[14]的算法以模拟AEC系统的非线性。

  深度神经网络(DNN)基本上能够建模复杂的非线性关系,并且预计它们将提供一个引人注目的线性AEC算法的替代方案。早期工作[15,16]使用级联的时延前馈神经网络(TDNN)来模拟声道的非线性。在最近的研究[17]中,DNN被用作残余回声抑制以抑制回声的非线性组分。最近,我们制定了AEC作为监督的语音分离问题,并提出了一种基于深度学习的AEC方法[18]。与传统的AEC算法相比,基于深度学习的方法避免了执行双通话检测或发布过滤。然而,以前的深度学习方法是以有限的鲁棒性涉及噪声和RIR相关的方式训练。

  AEC在嘈杂环境中的最终目标是完全消除回声和背景噪声,并仅在远端发送近端语音[18,19]。从语音分离的角度来看,我们将该问题建议作为有监督的语音分离问题[20],其中近端语音信号是要与麦克风录制分离的目标源。深度学习在语音分离中产生了巨大进展[20-22],可能在解决AEC挑战方面发挥重要作用。

  最近的一项研究[23]表明,准确的相位估计可以导致语音质量的相当大的改进。在本文中,CRN用于训练复杂的光谱映射[24],估计附加语音的真实和虚构的谱图。因此,它能够同时增强两个幅度和相位响应。通过残余回声抑制在消除AEC输出时的残余回声中的潜力,利用LSTM网络估计近端语音检测器(NSD)以进一步抑制残余回声和噪声。所提出的系统以噪音和RIR相关的方式训练,可以概括为未训练的噪音和RIR。

  本文的其余部分安排如下。第2节提出了所提出的方法。评估度量和实验结果如第3节所示。第4节总结了本文。

2 提出的方法

  声学信号模型如图1所示。麦克风信号\(y(n)\)是回声\(d(n)\)、近端语音\(s(n)\)以及背景噪声\(v(n)\)的混合物:

\[y(n)=d(n)+s(n)+v(n)  (1) \]

  其中n表示时间样本,并且通过将扬声器信号与RIR卷积来产生回声。回声d(n)通常是远端信号x(n)的线性或非线性变换,如图1所示。我们用有监督语音分离问题来描述自动进化算法。如图2所示,总体方法是从\(y(n)\)\(x(n)\)估计近端语音的实部和虚部频谱图以及NSD,以抑制声学回声和背景噪声,并隔离嵌入的近端语音。

图1:声学回声场景图

图2:提出的系统的示意图

2.1 特征提取

  CRN取输入信号的实部和虚部频谱图(\(y(n)\)\(x(n)\)),而LSTM \(_{2}\)取它们的幅度频谱图作为输入特征。在16kHz下采样的输入信号被分成20ms帧,在连续帧之间具有10ms重叠。然后将320点短时傅里叶变换(STFT)应用于每个时间帧以产生输入信号的真实,虚部和幅度谱(\(* \mathrm{r}, * \mathrm{i}\)\(* \mathrm{m}\))。

2.2 训练目标

  我们探索这项研究中的两个训练目标:

  近端语音的复杂频谱[20]:近端语音的真实和虚构的谱图用作CRN的训练目标。让\(S_{\mathrm{r}}(m, c)\)\(S_{\mathrm{i}}(m, c)\)在时间m和频率c分别表示T-F单元内的目标。不同于基于幅度谱映射/屏蔽的方法,该方法用于波形重新合成的噪声阶段,复杂的光谱映射可以通过监督学习增强幅度和相位响应,从而进一步提高语音质量。

  近端语音检测器:NSD可以被视为帧级二进制掩码,可检测近端语音的活动。如果帧m不存在近端语音,则\(N S D(m)=0\);否则,\(N S D(m)=1\)

\[N S D(m)= \begin{cases}1, & \text { if } \max _{c}|S(m, c)|>0 \\ 0, & \text { else }\end{cases}  (2) \]

  LSTM \(_{2}\)估计的NSD应用于估计的复杂谱图,以抑制帧的残余回声和噪声,而不会存在近端语音,同时保持CRN估计的近端语音。

2.3 学习机器

  建议的系统由两个组成部分组成。首先,采用CRN来预测近端语音的复杂频谱[24]。它是如图2所示的编码器解码器架构。具体地,编码器和解码器分别包括五个卷积层和五个去卷积层。它们之间是一个具有组策略[25]的两层LSTM,其中组号设置为2。[24]中提供了CRN架构的详细描述,除了我们的CRN具有四个输入通道,其对应于分别是麦克风信号\(\left(Y_{\mathrm{r}}, Y_{\mathrm{i}}\right)\)和远端信号\(\left(X_{\mathrm{r}}, X_{\mathrm{i}}\right)\)的真实和虚构光谱。 LSTM,LSTM \(_{2}\),用于从输入信号\(\left(Y_{\mathrm{m}}, X_{\mathrm{m}}\right)\)的幅度谱图中预测NSD。 LSTM \(_{2}\)有四个隐藏层,每层300个单位。输出层是全连接层。sigmoid函数用作输出层中的激活函数。 AMSGRad优化器[26]和均方误差(MSE)代价函数用于训练两个网络。网络训练30个epoch,学习率为0.001。小批量大小在话语级别设置为16。

2.4 信号重新合成

  CRN的输出是近端语音复杂谱图的估计:

\[\hat{S}(m, c)=\hat{S}_{\mathrm{r}}(m, c)+i \hat{S}_{\mathrm{i}}(m, c)  (3) \]

其中i表示虚数单位。当应用估计的NSD时,估计\(\hat{S}(m, c)\)可以通过元素乘法进行修改:

\[\hat{S}(m, c)_{\mathrm{NSD}}=N S D(m) \cdot \hat{S}(m, c)  (4) \]

  将估计后的复谱图和修正后的复谱图输入基于短时间傅里叶反变换的重合成器中,得到时域估计后的近端语音信号。

  请注意,如果NSD估计准确,\(\hat{S}(m, c)_{\text {NSD }}\)在单通话周期(只有远端信号,没有近端语音)应全部为零。也就是说,完全消除了\(\hat{S}(m, c)\)单话周期内的残留回声和噪声。因此,这一时期的回声损耗增强(ERLE)可以被提高到无穷大。

3 实验结果

3.1 性能指标

  采用ERLE[2]算法和PESQ[27]算法对该方法的性能进行了评价。本研究将ERLE定义为:

\[\mathrm{ERLE}=10 \log _{10}\left[\sum_{n} y^{2}(n) / \sum_{n} \hat{s}^{2}(n)\right]  (5) \]

  ERLE的这种变体在文献[9-12]中被广泛用于评估存在背景噪声的掩模相关的AEC系统。它反映了系统实现的综合回声和噪声衰减。

3.2 实验设置

  TIMIT数据集[28]用于双讲、背景噪声和非线性失真的情况。为了研究说话人的泛化,我们从TIMIT数据集的630个说话人中随机选取100对说话人(40对男女说话人、30对男女说话人、30对男女说话人)分别作为近端说话人和远端说话人。从每个说话人的10个话语中,随机选择7个话语来创建训练混合物,剩下的3个话语用于创建测试混合物。从一个远端扬声器中随机选择的三个话语被连接起来产生一个远端信号。从近端扬声器随机选择的话语,通过在开头和结尾的零填充将其扩展到与远端信号相同的长度,其中前导零的个数是随机的。

  为了得到一个噪声无关的模型,我们使用来自声音效果库(http://www.sound-ideas.com)的10000个噪声作为训练混合物。来自NOISEX-92数据集[29]的oroom(operational room)噪声,来自Auditec CD (http://www.auditec.com)的babble噪声,以及用于测试混合物的白噪声。使用图像方法[30]生成RIRs。为了研究RIRs的泛化问题,我们模拟了20个大小为\(a \times b \times c\) m的不同的房间,其中\(a=[4,6,8,10], b=[5,7,9,11,13], c=3\)。我们在每个房间中随机选取10个固定麦克风-扬声器(M-L)距离(1 m)的位置来产生RIRs。由于RIRs的长度设置为512,混响时间(\(T_{60}\))从\(\{0.2,0.3,0.4\} \mathrm{s}\)中随机选取,因此共创建200个RIRs用于混合训练。对于试验混合物,我们使用模拟和实际测量的RIRs。其中两个(\(R I R_{1}\)\(R I R_{2}\))用成像方法生成,\(M-L\)距离为1 m,\(T_{60}\)为0.2 s。\(3 \times 4 \times 3\)\(11 \times 14 \times 13\)的模拟房间大小与20个训练混合物的房间大小不同。另外两个RIRs(\(R I R_{3}\)\(R I R_{4}\))是从Aachen冲激响应数据库[31]中选取的。在尺寸为\(8 \times 5 \times 3.1\)的会议室进行测量。\(T_{60}\)为0.23 s, M-L距离分别为1.45 m和2.25 m。注意,\(R I R_{3}\)\(R I R_{4}\)是由远端信号和麦克风信号测量的。也就是说,它们与远端信号与扬声器信号之间的传递函数相关。

  我们创建了20000个训练混合物和300个测试混合物。每个训练混合是通过将随机选择的扬声器信号(或无非线性失真条件下的远端信号)与200个随机选择的RIR进行卷积来产生回声。然后随机选择的近端语音与从{?6,?3,0,3,6}dB中随机选择的信号-回声比(SER)混合。最后,从10000个噪声中随机切取一个从{8,10,12,14}dB中随机选择的信噪比(SNR)加入到混合物中。在双讲期间评估的SER和SNR定义为:

\[\mathrm{SER}=10 \log _{10}\left[\sum_{n} s^{2}(n) / \sum_{n} d^{2}(n)\right]  (6) \]

\[\mathrm{SNR}=10 \log _{10}\left[\sum_{n} s^{2}(n) / \sum_{n} v^{2}(n)\right]  (7) \]

  测试混合物的创建类似,但使用不同的话语、噪音、RIRs、SERs和SNRs。

3.3 在双讲和背景噪音情况下的表现

  首先,在有双语和背景噪声的情况下,将该方法与传统方法进行了比较。联合优化归一化最小均方算法(JONLMS)是最近提出的双说话鲁棒算法,它是在状态变量模型的背景下开发的,试图将系统失调[6]最小化。JO-NLMS and AES的参数分别设置为[6]和[10]中给出的值。由于JO-NLMS本身无法处理背景噪声,因此采用后置滤波器(PF)[8]对其输出噪声进行抑制。后滤镜的两个遗忘因子设置为0.99。

  表1显示了在存在不同RIRs的双语和babble噪声时300个测试混合物的平均ERLE和PESQ值。基于JO-NLMS方法的ERLE是稳态结果。总的来说,本文提出的CRN方法优于传统方法,特别是在ERLE方面。此外,当与NSD (CRNNSD)结合时,大多数测试混合物在单会话期间的ERLE可以得到无限提高。正如前面提到的,我们使用了一个话语级ERLE,定义为整个单通话期间麦克风信号能量之和与输出信号能量之和的比值。这里的无穷大意味着所有单话时间帧的残留回声和噪声被完全消除。注意,对一些测试混合物的NSDs估计可能不够准确。因此,某些测试混合物的ERLE并没有提高到无穷大。“Inf”后括号中的数字表示得到无穷大的测试混合物的百分比。另外两个值显示的是ERLE和被测试的话语没有得到无限提高的百分比。以含有\(R I R_{1}\) 的CRN-NSD结果为例。在300个测试样本中,229个样本的ERLE提高到无穷大,剩余71个样本的平均ERLE提高到43.27 dB。我们还观察到,CRN-NSD在ERLE方面的改善是以PESQ可接受的减少为代价的。此外,该方法还可以推广到未经训练的\(R I R_{s}\) , (\(R I R_{1}\)\(R I R_{2}\) )。在不同背景噪声和SERs下的对比结果如图3所示。该方法始终优于传统方法,并且对未经训练的噪声和SERs信号具有很好的泛化性能。

表1 在3.5 dB SER, 10 dB SNR的双讲和babble噪声下的性能。

图3 RIR1下不同SER水平下的ERLE值

3.4 在双讲、背景噪声和非线性失真情况下的性能

  用[17]步骤模拟了功率放大器和扬声器引入的非线性失真。首先,在每个远端信号上应用硬剪切[32]来模拟功放的特性:

\[x_{\text {hard }}(n)=\left\{\begin{array}{cc} -x_{\max } & x(n)<-x_{\max } \\ x(n) & |x(n)| \leq x_{\max } \\ x_{\max } & x(n)>x_{\max } \end{array}\right.  (8) \]

其中\(x_{\max }\)设为0.8,为\(|x(n)|\)的最大振幅。然后一个无记忆的sigmoidal非线性[14]应用于剪辑信号,以模拟非对称扬声器失真:

\[x_{\mathrm{NL}}(n)=\gamma\left(\frac{2}{1+\exp (-a \cdot b(n))}-1\right)  (9) \]

其中\(b(n)=1.5 \times x_{\text {hard }}(n)-0.3 \times x_{\text {hard }}^{2}(n)\)。sigmoid增益\(\gamma\)设置为4。如果\(b(n)>0\),则sigmoid斜率a设为4,否则设为0.5。最后,将扬声器信号\(x_{\mathrm{NL}}\)与RIR进行卷积,得到带有非线性失真的回声。

  图4中的波形和谱图说明了所提方法的回声消除示例,其中“Amp”代表振幅。基于信噪比的方法可以去除麦克风信号中的大部分回声和噪声。但是很明显,仍然存在一定数量的残差回声和噪声,使用基于NSD的残差回声抑制可以完全去除。

图4 在3.5 dB SER、10dB信噪比(babble noise)和非线性失真(RIR1)情况下的波形和频谱图:(a)近端语音,(b)麦克风信号,(c)估计近端语音的CRN, (e)估计近端语音的CRN-NSD, (d)估计的NSD。

  我们将该方法与基于DNN的残差回声抑制方法[17]和基于LSTM的方法18进行了比较。在[17]中,使用AES[10]进行预处理,使用DNN去除残留回声。AES-DNN的参数设置为[17]中给出的值。比较结果见表2。显然,所有这些基于深度学习的方法都能够在存在非线性失真的情况下抑制回声。在大多数情况下,CRNNSD方法的性能优于其他两种方法。请注意,就ERLE而言,LSTM的性能优于CRN。这是因为基于LSTM的方法的目标是一个比率掩码,其取值范围为[0,1]。一般情况下,比值掩模的估计比直接估计复杂谱图更容易、更准确。CRN采用复杂的光谱映射,增强幅度和相位同时响应,因此它产生明显高于LSTM的PESQ值。

  表3显示了在回声路径改变和测试扬声器未经过训练时所提出的方法的行为。通过每1.5秒在\(R I R_{3}\)\(R I R_{4}\)之间切换来模拟回声路径的变化。为了创建未经训练的测试混合物,我们从TIMIT数据集剩余的430个发言者中随机选择10对未经训练的发言者,并创建100个测试混合物。该表的结果表明本文方法具有较高的鲁棒性。

表2 在3.5 dB SER、10 dB信噪比下,双通话、背景噪声和非线性失真情况下的性能

表3 在3.5 dB SER,10 dB信噪比(babble noise)的条件下,回声路径变化和未训练扬声器的性能

4 结论

  在本文中,我们提出了一个复杂的基于光谱映射的系统来解决非线性失真的综合回声和噪声消除问题。通过对近端语音检测器的估计,进一步提高了该方法的性能。评价结果表明,该系统对未经训练的噪声以及未经训练的模拟和实测RIRs的回声和噪声都有很好的去除效果,大大优于以往的技术。

5 参考文献

[1] J. Benesty, T. Gansler, D. Morgan, M. Sondhi, S. Gay ¨ et al., Advances in network and acoustic echo cancellation. Springer,2001.
[2] G. Enzner, H. Buchner, A. Favrot, and F. Kuech, “Acoustic echo control,” in Academic press library in signal processing: image, video processing and analysis, hardware, audio, acoustic and speech Processing. Academic Press, 2014.
[3] E. Hansler and G. Schmidt, ¨ Acoustic echo and noise control: a practical approach. John Wiley & Sons, 2005, vol. 40.
[4] J. Benesty, C. Paleologu, T. Gansler, and S. Ciochin ¨ a,? A perspective on stereophonic acoustic echo cancellation. Springer Science & Business Media, 2011, vol. 4.
[5] D. Duttweiler, “A twelve-channel digital echo canceler,” IEEE Transactions on Communications, vol. 26, no. 5, pp. 647–653, 1978.
[6] C. Paleologu, S. Ciochina, J. Benesty, and S. L. Grant, “An ? overview on optimized nlms algorithms for acoustic echo cancellation,” EURASIP Journal on Advances in Signal Processing, vol. 2015, no. 1, p. 97, 2015.
[7] V. Turbin, A. Gilloire, and P. Scalart, “Comparison of three postfiltering algorithms for residual acoustic echo reduction,” in IEEE International Conference on Acoustics, Speech, and Signal Processing, vol. 1. IEEE, 1997, pp. 307–310.
[8] F. Ykhlef and H. Ykhlef, “A post-filter for acoustic echo cancellation in frequency domain,” in Second World Conference on Complex Systems. IEEE, 2014, pp. 446–450.
[9] K. Nathwani, “Joint acoustic echo and noise cancellation using spectral domain kalman filtering in double-talk scenario,” in International Workshop on Acoustic Signal Enhancement. IEEE, 2018, pp. 1–330.
[10] F. Yang, M. Wu, and J. Yang, “Stereophonic acoustic echo suppression based on wiener filter in the short-time fourier transform domain,” IEEE Signal Processing Letters, vol. 19, no. 4, pp. 227– 230, 2012.
[11] Y. S. Park and J. H. Chang, “Frequency domain acoustic echo suppression based on soft decision,” IEEE Signal Processing Letters, vol. 16, no. 1, pp. 53–56, 2009.
[12] Y. Tong and Y. Gu, “Acoustic echo suppression based on speech presence probability,” in IEEE International Conference on Digital Signal Processing. IEEE, 2016, pp. 35–38.
[13] A. Stenger, L. Trautmann, and R. Rabenstein, “Nonlinear acoustic echo cancellation with 2nd order adaptive volterra filters,” in IEEE International Conference on Acoustics, Speech, and Signal Processing, vol. 2. IEEE, 1999, pp. 877–880.
[14] D. Comminiello, M. Scarpiniti, L. A. Azpicueta-Ruiz, J. ArenasGarcia, and A. Uncini, “Functional link adaptive filters for nonlinear acoustic echo cancellation,” IEEE Transactions on Audio, Speech, and Language Processing, vol. 21, no. 7, pp. 1502–1512, 2013.
[15] A. N. Birkett and R. A. Goubran, “Acoustic echo cancellation using nlms-neural network structures,” in International Conference on Acoustics, Speech, and Signal Processing, vol. 5. IEEE, 1995, pp. 3035–3038.
[16] ——, “Nonlinear loudspeaker compensation for hands free acoustic echo cancellation,” Electronics Letters, vol. 32, no. 12, pp. 1063–1064, 1996.
[17] C. M. Lee, J. W. Shin, and N. S. Kim, “Dnn-based residual echo suppression,” in Sixteenth Annual Conference of the International Speech Communication Association, 2015.
[18] H. Zhang and D. L. Wang, “Deep learning for acoustic echo cancellation in noisy and double-talk scenarios,” Proceedings of INTERSPEECH, pp. 3239–3243, 2018.
[19] J. M. Portillo, “Deep Learning applied to Acoustic Echo Cancellation,” Master’s thesis, Aalborg University, 2017.
[20] D. L. Wang and J. Chen, “Supervised speech separation based on deep learning: An overview,” IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2018.
[21] Y. Wang, A. Narayanan, and D. L. Wang, “On training targets for supervised speech separation,” IEEE/ACM Transactions on Audio, Speech and Language Processing, vol. 22, no. 12, pp. 1849– 1858, 2014.
[22] M. Delfarah and D. L. Wang, “Features for maskingbased monaural speech separation in reverberant conditions,” IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 25, no. 5, pp. 1085–1094, 2017.
[23] K. Paliwal, K. Wojcicki, and B. Shannon, “The importance of ′ phase in speech enhancement,” speech communication, vol. 53, no. 4, pp. 465–494, 2011.
[24] K. Tan and D. L. Wang, “Complex spectral mapping with a convolutional recurrent network for monaural speech enhancement,” in IEEE International Conference on Acoustics, Speech and Signal Processing, 2019.
[25] F. Gao, L. Wu, L. Zhao, T. Qin, X. Cheng, and T. Liu, “Efficient sequence learning with group recurrent networks,” in Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, vol. 1, 2018, pp. 799–808.
[26] S. J. Reddi, S. Kale, and S. Kumar, “On the convergence of adam and beyond,” in International Conference on Learning Representations, 2018.
[27] A. W. Rix, J. G. Beerends, M. P. Hollier, and A. P. Hekstra, “Perceptual evaluation of speech quality (pesq)-a new method for speech quality assessment of telephone networks and codecs,” in IEEE International Conference on Acoustics, Speech, and Signal Processing, vol. 2. IEEE, 2001, pp. 749–752.
[28] L. F. Lamel, R. H. Kassel, and S. Seneff, “Speech database development: Design and analysis of the acoustic-phonetic corpus,” in Speech Input/Output Assessment and Speech Databases, 1989.
[29] A. Varga and H. J. Steeneken, “Assessment for automatic speech recognition: Ii. noisex-92: A database and an experiment to study the effect of additive noise on speech recognition systems,” Speech communication, vol. 12, no. 3, pp. 247–251, 1993.
[30] J. B. Allen and D. A. Berkley, “Image method for efficiently simulating small-room acoustics,” The Journal of the Acoustical Society of America, vol. 65, no. 4, pp. 943–950, 1979.
[31] M. Jeub, M. Schafer, and P. Vary, “A binaural room impulse response database for the evaluation of dereverberation algorithms,” in International Conference on Digital Signal Processing. IEEE, 2009, pp. 1–5.
[32] S. Malik and G. Enzner, “State-space frequency-domain adaptive filtering for nonlinear acoustic echo cancellation,” IEEE Transactions on audio, speech, and language processing, vol. 20, no. 7, pp. 2065–2079, 2012.