首页 基于近场波束形成的麦克风阵列语音增强方法

基于近场波束形成的麦克风阵列语音增强方法

举报
开通vip

基于近场波束形成的麦克风阵列语音增强方法 第 29卷第 1期 电 子 与 信 息 学 报 Vol.29No.1 2007年 1月 Journal of Electronics & Information Technology Jan. 2007 基于近场波束形成的麦克风阵列语音增强方法 王冬霞 殷福亮 (大连理工大学...

基于近场波束形成的麦克风阵列语音增强方法
第 29卷第 1期 电 子 与 信 息 学 报 Vol.29No.1 2007年 1月 Journal of Electronics & Information Technology Jan. 2007 基于近场波束形成的麦克风阵列语音增强 方法 快递客服问题件处理详细方法山木方法pdf计算方法pdf华与华方法下载八字理论方法下载 王冬霞 殷福亮 (大连理工大学电子与信息工程学院 大连 116024) 摘 要: 当麦克风阵列用于封闭环境中非手持式语音拾取时,必须面对的一个问题是声场为阵列近场的问题。该 文在子带自适应波束形成方法的基础上,引进了一种基于近场波束形成的麦克风阵列语音增强方法。该方法充分 利用了近场球面波的波前弯曲率,有效地衰减了混响和噪声对期望信号的影响。仿真实验结果 关于同志近三年现实表现材料材料类招标技术评分表图表与交易pdf视力表打印pdf用图表说话 pdf 明,在小房间混 响条件下,基于近场波束形成的麦克风阵列语音增强方法取得了较好的噪声抑制效果。 关键词:麦克风阵列; 语音增强; 近场波束形成 中图分类号:TN912.3 文献 标识 采样口标识规范化 下载危险废物标识 下载医疗器械外包装标识图下载科目一标识图大全免费下载产品包装标识下载 码:A 文章编号:1009-5896(2007)01-0067-04 A Nearfield Beamforming Method for Microphone Array Based on Speech Enhancement Wang Dong-xia Yin Fu-liang (School of Electronic and Information Engineering, Dalian University of Technology, Dalian 116024, China) Abstract: When using a microphone array for hands-free speech acquisition in enclosure environments, one can be faced with the problem of wave propagation in near-field. In this paper, therefore, a near-field beamforming method for microphone array based speech enhancement is introduced which modified subband adaptive beamforming method. The proposed method takes full advantage of spherical nature of the sound wavefront, in which the distance discrimination reduces the effect of reverberation as well as noise on the desired speech signal. Simulations experimental results demonstrate that the proposed microphone array based speech enhancement method exhibits a better noise reduction performance than other methods. Key words: Microphone array; Speech enhancement; Near-field beamforming 1 引言 在车载系统、电话会议与多媒体会议等非手持式的智能 语音通信系统中,由于受到环境噪声、混响以及干扰等因素 的影响,麦克风阵列拾取的语音信号质量较差,而这将直接 影响到语音编码及语音识别系统的性能。因此,需要进行有 效的噪声抑制,以增强封闭环境下的带噪语音信号质量。 大多数的麦克风阵列语音增强方法,建立在声源位于阵 列远场的假设基础上[1–4]。在这种情况下,声波的波前弯曲率 可以忽略,阵列的所有入射波均是平面波。该假设简化了分 析过程,在大房间会议室中产生了较好的性能。然而,当麦 克风阵列用于一些特殊环境,诸如小房间非手持式语音拾取 时(麦克风阵列安置在计算机显示器上面),与前者相比,声 源与麦克风阵列的距离较小,即声源位于阵列的近场中。此 时,声波的波前弯曲率可以由阵列探测到而不能忽略,阵列 的所有入射波均是球面波。在这种情况下,如果仍然使用远 场波束形成方法来增强带噪语音信号,那么麦克风阵列语音 增强系统的性能急剧下降[5]。 因此,近场问题是封闭环境下,麦克风阵列语音增强方 2005-06-08收到,2005-11-22改回 国家自然科学基金(603720821,60172073)和教育部跨世纪优秀人才 基金资助课题 法必须面对的一个问题。Ryan 等提出了近场环境下,将麦 克风阵列用于非手持式语音拾取的方法,并取得了较高的阵 列输出增益[6,7]。但是,该方法是基于统计特性基础上的固定 波束形成方法,因而缺少对环境的适应性。Zheng等提出了 基于奇异值分解基础上的近场自适应波束形成方法,也取得 了较好的阵列输出效果[8]。但是,该方法的理论模型基础仍 然是广义旁瓣抵消器(GSC)[1],所以对非平稳及弱相关噪声 的抑制较差。 对于封闭房间里的声源来讲,近场源的直达波波前比其 反射波的波前具有更大的弯曲率。与原始声源相比,反射波 相应的镜像源往往位于距离阵列更远的地方[6]。如果阵列聚 焦于近场声源的话,那么可以通过距离差来减小位于远场的 混响和噪声对纯净语音的影响。因此,本文则从该角度出发, 充分利用近场球面波的波前弯曲率,在子带波束形成的基础 上[4],提出一种基于近场波束形成的麦克风阵列语音增强方 法。该方法试图进一步衰减混响和噪声对期望信号的影响, 从而改善近场环境下,带噪语音的质量。 本文的具体结构安排如下:在所选声学模型的基础上, 给出基于近场波束形成的麦克风阵列语音增强方法的整体 框图;接着从理论上对该方法进行推导;然后给出在仿真环 境下,该方法语音增强的效果及与其他方法的噪声性能比 较;最后给出结论。 68 电 子 与 信 息 学 报 第 29卷 2 位于阵列近场的声波传播模型 如图 1所示,设 r 为声源与参考麦克风的距离,θ与ϕ 分 别表示相应的方位角和仰角。在球坐标系下,声波 r( , ) ( , , , )s t s r tθ ϕ= 的波动方程表示为[9] 2 2 2 2 2 2 2 2 2 2 1 1 1 1 ( ) (sin ) sin sin s s s s r r r r r r c t φφ φ φ φ θ ∂ ∂ ∂ ∂ ∂ ∂+ + =∂ ∂ ∂ ∂ ∂ ∂ (1) 图 1 球面坐标系下的声波与阵列 式中波速 343c = m/s。考虑到多数情况下,近场源的声场表 现为各向同性,即在 ,θ ϕ方向上没有变化,式(1)简化为 2 2 2 2 2 1 1s s r r r r c t ⎛ ⎞∂ ∂ ∂⎟⎜ =⎟⎜ ⎟⎜⎝ ⎠∂ ∂ ∂ (2) 于是,得到波动方程的解为 ( , , ) exp{ ( )} A s r t j t kr r ω ω= − (3) 式中 k cω= 为声波波数,其中 ω 为声波角频率。当 r →∞ 时,球面波 ( , , )s r tω 的表达式与平面波形式一致。 由式(3)可以看出,声源距离阵列越远,信号幅值衰减越 大。如果期望声源位于阵列近场(其混响信号的镜像源将位于 距离阵列较远的地方),干扰噪声源处于远场,那么这一特性 可以用来衰减那些相对阵列距离较远混响和噪声,进一步提 高系统对噪声和混响的抑制能力。 3 麦克风阵列语音增强方法的描述 本文以麦克风阵列接收的信号为式(3)所示的球面波为 对象,在子带自适应波束形成的基础上[4],采用基于近场波 束形成方法,来解决封闭环境下(期望声源位于近场、噪声源 处于远场)带噪语音的增强问题。该方法的系统结构如图 2 所示,主要有 3个模块构成,即近场波束形成、子带自适应 波束形成及后置滤波。下面,分别就这 3个模块对该方法进 行理论阐述。 图 2 基于近场波束形成的麦克风阵列语音增强方法框图 3.1 近场波束形成 位于麦克风阵列近场的声源方向矢量表示为 α 1 H 1 ( , ) , , , , w iw Mw w jkr jkr jkr w s w jkr w iw Mw r e e e r e r r r ω − − − − ⎡ ⎤⎢ ⎥= ⎢ ⎥⎣ ⎦ " " (4) 式中H表示共轭转置,M 为麦克风数目。假设在二维投影 平面内, ( , )w w wx r θ= 为声源位置, ( , )i i ix r θ= 为麦克风位 置, iwr 为声源与第 i只麦克风之间的距离,即 2 2 2 cos( )iw w i w i i wr r r r r θ θ= + − − (5) 这是信号的空间表示形式。考虑到语音信号是宽带信号,则 阵列信号的延迟矢量为 α α    H( 1)( , ) 1, , jk L cTt w tr eω − −⎡ ⎤= = ⎢ ⎥⎣ ⎦" (6) 这是信号的时间表示形成。于是,式(4)的方向矢量可以进一 步表示成空时二维信号矢量形式,即 α α α       1 1( ) 1 1 H( ( 1) ) ( , ) ( , ) ( , ) , , , , , (7) w Mw w w Mw w s w t w jkr jkr jk r cT w jkr w Mw w jk r L cT Mw r r r r e e e e r r r e r ω ω ω − − − + − − + − = ⊗ ⎡⎢= ⎢⎣ ⎤⎥⎥⎦ " " 式中⊗为 Kronecker积。 麦克风阵列的近场波束形成输出信号为 { } = = α α α    1 H 1 1 1 1 1 1( ) ( , ) ( , ) 1 ( , ) exp ( ( 1) cos( )) (8) M L w il w il i l M L is il w s is i l s i i s d n r r M rr jk r r l cT M r r ω ω ω θ θ − ∗ = = − = = = − − − − + − ∑∑ ∑∑ C C 式中符号 ∗表示复数共轭,近场补偿函数矢量C 为 [ ]   1 1 exp{ ( ( 1) cos( ))} il ML is s is i i s s ML r jk r l r r Mr θ θ × × = ⎡ ⎤⎢ ⎥= − − + −⎢ ⎥⎣ ⎦ C C (9) 由式(9)可以看出,通过对球形波的波前补偿,各路期望语音 信号进行相关求和( w sr r= ),因此,期望信号得到增强。包 括与直达波语音信号具有相同波达方向的混响和干扰噪声 在内的其它信号( w sr r≠ ),由于幅值和(或)距离的差别而得 到初步衰减。 3.2 分析合成滤波器 如图 2所示的子带自适应波束形成模块中,分析滤波器 组 A将全带信号均分成 K 个子带,抽取因子为 D。经过子 带自适应波束形成处理,合成滤波器组 S在系统的输出端将 各子带信号合成为全带表示。 本文选取内插因子和抽取因子相等的均匀滤波器组,即 I D= 。并且,为了减小子带信号间的混叠效应,选取 D K< 的过采样方式。鉴于语音为实信号,本文选取分析和 合成滤波器分别是原型低通滤波的余弦调制形成,即 第 1期 王冬霞等:基于近场波束形成的麦克风阵列语音增强方法 69 1 ( ) 2 ( )cos (2 1) ( 1) 2 2 4 f k k L a n a n k n K π π⎡ ⎤⎛ ⎞− ⎟⎜⎢ ⎥= + − + −⎟⎜ ⎟⎟⎢ ⎥⎜⎝ ⎠⎣ ⎦ (10) 1 ( ) 2 ( )cos (2 1) ( 1) 2 2 4 f k k L b n b n k n K π π⎡ ⎤⎛ ⎞− ⎟⎜⎢ ⎥= + − − −⎟⎜ ⎟⎟⎢ ⎥⎜⎝ ⎠⎣ ⎦ (11) 其中 ( )a n 和 ( )b n 分别是分析与合成滤波器组的原型低通线 性滤波器,滤波器长度 fL 为 2K 的整数倍。在满足完全重 构条件基础上,确保原型滤波器的阻带能量最小化,从而进 一步减小频带间的混叠效应[10]。 为表示子带处理带来信号采样率的变化,本文假定 n为 原始的时域单位,m为子带波束形成过程中的时域单位。 3.3 子带自适应波束形成 假定第 k个子带自适应波束形成的输入信号数据矢量为 T 1, 1,( ) [ ( ), , ( )]k k M km u m u m−=u " ,固定波束形成器输出的子 带信号为 ( )kd m ,空间滤波器矢量为 ( ) ( )1,( ) [ ( ), ,p pk km w m=w "  ( ) T1, ( )]pM kw m− ,则子带多通道自适应波束形成器(MCAF)的输 出信号为 1 ( ) T 0 ( ) [ ( )] ( ) w k L p k k p v m m m p − = = −∑ w u (12) 式中T表示转置, wL 为子带滤波器的长度。子带自适应波 束形成的误差信号为 ( ) ( ) ( )k k ke m d m v m= − (13) 基于 NLMS自适应子带滤波器的权值更新方程为 u ( ) ( )( 1) ( ) ( ) ( ) [ ( )] p p k k k k k k m m m e m P m α ∗+ = +w w u (14) 式中α为步长。 为了跟踪语音的时变特性,并考虑到功率谱估计偏差对 系统的影响,输入数据矢量的功率估计 [ ( )]k kP mu 采用递推 方式得到,即 1 2 , 1 [ ( )] [ ( 1)] (1 ) ( ) M k k k k l k l P m P m mβ β − = = − + − ∑u u u (15) 式中 [ ]0,1β ∈ 为遗忘因子。 3.4 后置滤波 考虑到子带自适应波束形成去除的是强相关的噪声,其 输出端仍存在部分残留噪声,因此本文引进多通道后置滤波 器(如图 2所示),去除那些非平稳和弱相关的噪声。 第 k个子带的滤波器频率响应的表达式为 3 2 0 1 2 ( ) ( 1)( 2) ( ) ( ) i j k M M j i j ij k j e P e M M H e P e ω ω ω − − = = +− −= ∑ ∑ u u (16) 式中 ( ) k j eP e ω 表示自功率谱的估计值。为了跟踪语音的时变 特性,并考虑到功率谱估计偏差对系统的影响,输入数据矢 量的功率估计 ( ) k j eP e ω 仍然采用递推方式得到,即 2 ( 1, ) ( , ) ( , ) k k j j j e e kP l e P l e e l e ω ω ωη+ = + (17) 式中 η 为遗忘因子,l表示帧数。 麦克风阵列语音增强系统的输出端信号,即合成滤波器 输出信号为 其它 1 1 [ ( ( )) ( )] ( ), ( ) 0, K j k k k k F H e e m b m n mD y n ω− = ⎧⎪⎪ ∗ ∗ =⎪⎪= ⎨⎪⎪⎪⎪⎩ ∑ (18) 式中 1F− 表示傅里叶反变换, ∗表示线性卷积,D是内插因 子。 4 仿真实验 4.1 仿真环境 实验选取的仿真房间结构为小房间(5m×4m×3m),且各 面墙的反射系数相同。按照 Eyring公式,混响时间 60T 可以 表示为墙壁反射系数的函数[11],即 60 0.163 log(1 ) V T S γ= − − (19) 式中 , 和V S γ分别表示房间的体积、总面积与墙壁的反射系 数。线性麦克风阵列由 5个间距为 10cm的麦克风组成。目 标语音声源的入射方向为 90°,与麦克风阵列的距离符合近 场的假设条件,即满足 22sr R λ< (20) 式中 R表示阵列孔径,λ为工作波长。干扰噪声位于阵列远 场,信号的入射方向为 30°。 第 i 只麦克风接收的信号为 1, 2,( ) ( ) ( ) ( ) ( )i i i Ix n h n s n h n n n= ∗ + ∗ (21) 式中 , , 和1, 2,( ) ( ) ( ) ( )I i is n n n h n h n 分别为目标语音信号、干扰噪 声、以及目标语音信号、干扰噪声与第 i 只麦克风之间的房 间冲激响应(采用 Image模型[12]得到)。实验所采用的语音文 本“第一课认识新同学”由男生朗读,信号采样率为 8kHz, 每个样值用 16bit 二进制进行编码。在语音文本中加入高斯 白噪声[13]以组成不同输入信噪比输入信号。 在整个麦克风阵列语音增强方法实现的过程中,窗函数 选用长度为 256 的汉宁窗,帧移为 128。原型滤波器的长度 为 128L = ,子带数为 16K = ,抽取(内插)因子为 8D = 。 4.2 实验结果 图 3与图 4分别表示了麦克风阵列的近场和远场波束形 成图。当期望声源位于阵列的近场时( 1r r= ),由图中可以 看到,采用近场波束形成方法,麦克风阵列取得了较大的增 益,同时衰减了那些距离较远的其它声源 ( 和12r r= 115r r= )。同样条件下,如果采用远场波束形成方法,则取 得了较差的结果。从而,进一步证明了前面理论分析所得出 的结论。 图 3 近场波束形成图 图 4 远场波束形成图 70 电 子 与 信 息 学 报 第 29卷 图 5表示混响时间 60 300msT = ,信噪比为 0 dB情况下 各种信号的波形。将图 5(b)与图 5(a)相比较不难看出,混响 和噪声严重畸变了原来纯净的语音信号。与 Griffiths-Jim 提 出的广义旁瓣抵消器GJGSC方法[1]、作者提出的 CSGSCPF 方法[5]相比,本文提出的近场波束形成方法取得较好的去噪 效果。非正式的听音测试已经证明了相应的结论。由于分析 滤波器组对信号的预滤波作用,该方法在有色噪声情况下, 也得到类似结论。 图 6表明,在近场环境下,随着输入信噪比的增加,几 种方法的噪声抑制性能均逐渐下降。与 Griffiths-Jim 提出的 广义旁瓣抵消器 GJGSC 方法[1],CSGSCPF 方法[5]相比,本 文的近场波束形成方法取得较好的噪声抑制能力。 5 结束语 本文在子带自适应波束形成方法的基础上,提出了一种 基于近场波束形成的麦克风阵列语音增强方法。该方法充分 利用了近场球面波的波前弯曲率,在提高收敛速度的同时, 有效地衰减了混响和噪声对期望信号的影响。无论从实验得 出的噪声抑制情况还是从非正式的听音测试都已证明,小房 间混响条件下,基于近场波束形成的麦克风阵列语音增强方 法明显改善了带噪语音信号的质量。但是,该方法仅限于声 图 5 白噪声情况下各信号波形 图 6 几种方法的噪声抑制性能比较 源和麦克风阵列之间位置相对固定的情况。因此,如何改善 该方法的韧性将是未来要开展的工作。 参 考 文 献 [1] Griffiths L J and Jim C W. An alternative approach to linearly constrained adaptive beamforming [J]. IEEE Trans. on Antennas and Propagation, 1981, AP-30(1): 27–34. [2] Marro C, Mahieux Y, and Simmer K U. Analysis of noise reduction and dereverberation techniques based on microphone arrays with postfiltering [J]. IEEE Trans. on Speech and Audio Processing, 1998, (3): 240–259. [3] Gannot S and Cohen I. Speech enhancement based on the general transfer function GSC and postfiltering [J]. IEEE Trans. on Speech and Audio Processing, 2004, 12(6): 561–571. [4] Wang Dongxia, and Yin Fuliang. A subband adaptive learning algorithm for microphone array based speech enhancement [A]. Lecture Notes in Computer Science [C], Springer -Verlag GmbH, 2005, 3497: 592–597. [5] Ryan G J. Criterion for the minimum source distance at which plane-wave beamforming can be applied [J]. Journal of the Acoustic Society of America, 1998, 104(1): 595–598. [6] Ryan J G and Goubran R A. Array optimization applied in the near field of a microphone array [J]. IEEE Trans. on Speech and Audio Processing, 2000, 8(2): 173–176. [7] Ryan J G and Goubran R A. Application of near field optimum microphone arrays to hands free mobile telephony [J]. IEEE Trans. on Vehicular Technology, 2003, 52(2): 390–400. [8] Zheng Y R and Goubran R A. Robust near-field adaptive beamforming with distance discrimination [J]. IEEE Trans. on Speech and Audio Processing, 2004, 12(5): 478–488. [9] 杨善元, 杨燕译著. 波[M]. 北京: 地震出版社, 1988: 4–15. [10] Kliewer J and Mertins A. Design of paraunitary oversampled cosine-modulated filter banks [A]. IEEE International Conference on Acoustics, Speech, and Signal Processing [C], Munich, Germany, 1997, 3: 2073– 2076. [11] Everest A F. The Master Hand of Acoustics, 2nd ed [M]. New York: McGraw-Hill, 1989: 131– 155. [12] Allen J B and Berkley D A. Image method for efficiently simulating small room acoustics [J]. Journal of the Acoustic Society of America, 1979, 65(4): 943–950. [13] 殷福亮, 宋爱民. 数字信号处理C语言程序集[M]. 沈阳: 辽宁 科学出版社, 1997: 30–34. 王冬霞: 女,1976 年生,博士生,讲师, 研究方向为语音信号处 理和阵列信号处理的理论与应用. 殷福亮: 男,1962 年生,博士生导师,教授, 主要研究方向为数 字信号处理、语音处理、图像处理及现代通信技术.
本文档为【基于近场波束形成的麦克风阵列语音增强方法】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_774173
暂无简介~
格式:pdf
大小:250KB
软件:PDF阅读器
页数:4
分类:工学
上传时间:2013-01-15
浏览量:20