首页 [整理]基于麦克风阵列的多声源测向方法研究

[整理]基于麦克风阵列的多声源测向方法研究

举报
开通vip

[整理]基于麦克风阵列的多声源测向方法研究[整理]基于麦克风阵列的多声源测向方法研究 分类号 密级 注1UDC 学 位 论 文 基于麦克风阵列的多声源测向方法研究 (题名和副题名) (作者姓名) 指导教师姓名 申请学位级别 硕 士 专业名称 电路与系统 论文提交日期 2014.02 论文答辩日期 2014.03 学位授予单位和日期 南 京 理 工 大 学 答辩委员会主席 评阅人 2014年 2月 24 日 注1:注明《国际十进分类法UDC》的类号。 声 明 本学位论文是我在导师的指导下取得的研究成果,尽我所知,在本学位论文中...

[整理]基于麦克风阵列的多声源测向方法研究
[整理]基于麦克风阵列的多声源测向方法研究 分类号 密级 注1UDC 学 位 论 文 基于麦克风阵列的多声源测向方法研究 (题名和副题名) (作者姓名) 指导教师姓名 申请学位级别 硕 士 专业名称 电路与系统 论文提交日期 2014.02 论文 答辩 答辩ppt下载中国建筑转正答辩ppt下载民事答辩状范文下载毕业答辩毕业答辩模板 日期 2014.03 学位授予单位和日期 南 京 理 工 大 学 答辩委员会主席 评阅人 2014年 2月 24 日 注1:注明《国际十进分类法UDC》的类号。 声 明 本学位论文是我在导师的指导下取得的研究成果,尽我所知,在本学位论文中,除了加以标注和致谢的部分外,不包含其他人已经发表或公布过的研究成果,也不包含我为获得任何教育机构的学位或学历而使用过的材料。与我一同工作的同事对本学位论文做出的贡献均已在论文中作了明确的说明。 研究生签名: 年 月 日 学位论文使用授权声明 南京理工大学有权保存本学位论文的电子和纸质文档,可以借阅或上网公布本学位论文的部分或全部 内容 财务内部控制制度的内容财务内部控制制度的内容人员招聘与配置的内容项目成本控制的内容消防安全演练内容 ,可以向有关部门或机构送交并授权其保存、借阅或上网公布本学位论文的部分或全部内容。对于保密论文,按保密的有关规定和程序处理。 研究生签名: 年 月 日 摘 要 基于麦克风阵列的多声源测向技术通过对麦克风阵列接收的多声源混合信号进行处理,从而确定各个声源的方位。它在很多领域都具有广泛的应用前景和实际意义,如在民用方面的视/音频会议、语音识别及增强等领域中,常利用声源测向技术精确估计出说话人位置来控制摄像头,使其自动对该位置的语音信号进行增强。在军事方面声源测向技术被广泛地应用在飞机,火炮、狙击手探测等方面。因此,该技术成为了语音信号处理领域的研究热点之一。 本课题针对基于麦克风阵列多声源测向问题展开研究,归纳总结并比较了传统的几类声源测向方法。本文以典型的双阵元麦克风阵列为研究对象,针对远场多声源模型,将基于语音信号时频正交特性的退化分离估计技术(DUET)应用于声源信号测向。该算法利用了语音信号特有的时频稀疏和短时正交特性(W-Disjoint Orthogonality,W-DO),基于此特性的时延估计算法计算量小,实现简单,仅用两个麦克风就可以实现多个声源的方位测向。但是当声源存在波长小于两倍阵元间距的高频成分时,此类声源测向方法将出现相位卷绕模糊问题,而阵元间距因物理尺寸限制也不可能无限缩小,因此限制了该类方法的实际应用领域。针对上述问题,本文提出了一种基于迭代时频掩蔽的宽间距麦克风阵列多声源测向方法,该方法通过迭代消去过程,显著抑制了相位卷绕产生的影响。此外,结合基于能量的语音端点检测技术,本文进一步给出了上述方法的实时处理算法步骤。针对上述方法,本文进行了仿真实验和相关外场实验,实验结果表明:针对宽间距麦克风阵列多声源测向,本文所述方法明显优于常规DUET类方法,具有一定的实际应用价值。 关键词:麦克风阵列 多源测向 时延估计 相位模糊 实时处理 Abstract Measuring multiple source direction in a microphone-array refers to that the direction of acousitc source is determined by mixed-signal imformation received from microphones. It is widely used in many areas, such as video / audio conferencing, speech recognition and peech enhancement etc. By estimating the speaker position to control the microphone and s camera, then the automatic speech signal of the speaker can be enhanced.In the military area, the technology is widely used in the aspects of sniper detection and target detection of aircraft, artillery etc.Therefore, multiple sound source direction measurement is a new hotspot in acoustic signal processing field. This thesis mainly focuses on a study based on multiple sound source direction measurement technology. And the several categories of traditional sound source direction measurements are summarized and compared firstly. In this paper, the typical dual-microphone array is studied, focused on far-field multiple sound source mode, the degenerate unmixing estimation technique (DUET) based on W-Disjoint Orthogonality (W-DO) of the source signals is applied to the acousitc source direction measurement. The ime delay estimation algorithm based on this characteristic has simple implementation, t little computation.And it can measurement the directions of multiple acoustic sources with only two microphones.However, when the wavelength is less than twice the spacing of the two microphones, this kind of algorithm is prone to phase wrap-around aliasing, which often leads to artifacts. However the spacing can not be infinitely reduced, thus the practical applications is limited of such methods. In response to these problems, an approach to correct the phase wrap-around aliasing based on an iterative time-frequency masking process is presented in this paper. By iteratively clustering in the masked time-frequency plane and the artifacts due to the phase wrap-around aliasing can be extremely suppressed. In addition, combined with the speech endpoint detection technology that based on energy, the paper puts forward a real-time processing algorithm. For the above method, simulation and outdoor experiments are taken. The experimental results show that the method is superior to conventional DUET method, which proves that the method has a great practical application value. KeyWords:Microphone array, Multiple source localization, Time delay estimation, Disambiguity, Real-time processsing 目 录 摘 要................................................................................. I Abstract ................................................................................. II 1 绪论 .................................................................................... 1 1.1 课题的研究背景及意义 .................................................................. 1 1.2 基于麦克风阵列的声源测向技术简介 .......................................... 2 1.2.1 麦克风阵列声源测向技术的特点 .........................................2 1.2.2 麦克风阵列声源测向技术的应用领域 .................................2 1.3 论文的结构安排 .............................................................................. 3 2 基于麦克风阵列的声源测向算法 ....................................... 5 2.1 基于最大输出功率的可控波束形成的方法 .................................. 5 2.2 基于高分辨率谱估计技术的方法 .................................................. 7 2.3 基于声压幅度比的方法 .................................................................. 8 2.4 基于时延估计的方法 ...................................................................... 9 3双阵元麦克风阵列时延估计方法 ...................................... 11 3.1 双阵元麦克风阵列信号模型 ........................................................ 11 3.2 传统的时延估计算法 .................................................................... 13 3.2.1 广义互相关函数法(GCC) ....................................................13 3.2.2 最小均方(LMS)自适应滤波 ................................................17 3.2.3 互功率谱相位法 ...................................................................18 3.3 基于声源信号时频正交特性的时延估计方法(DUET) .............. 19 3.3.1 语音信号的加窗分帧处理 ...................................................20 3.3.2 W-Disjoint Orthogonality (WDO)特性 .................................21 3.3.3 DUET算法主要 流程 快递问题件怎么处理流程河南自建厂房流程下载关于规范招聘需求审批流程制作流程表下载邮件下载流程设计 及仿真结果 ........................................23 3.3.4 DUET算法的局限性 ............................................................26 4基于迭代时频掩蔽的宽间距麦克风阵列相位解卷绕 ........ 27 4.1 迭代时频掩蔽方法 ........................................................................ 27 4.2 算法仿真及外场实验结果与分析 ................................................ 30 4.2.1宽间距麦克风阵列双声源测向仿真实验结果与分析 ........30 4.2.2宽间距麦克风阵列三声源测向仿真实验结果与分析 ........32 4.2.3外场实测结果与分析 ............................................................34 5 基于迭代时频掩蔽的宽间距麦克风实时多声源测向 ....... 38 5.1 实时多声源测向方法 .................................................................... 38 5.1.1 语音端点检测 .......................................................................38 5.1.2 实时多源测向法的具体步骤 ...............................................40 5.2 仿真实验结果与分析 .................................................................... 42 6 结论与展望 ....................................................................... 45 6.1 结论 ................................................................................................ 45 6.2 展望 ................................................................................................ 45 致 谢.................................................. 错误~未定义书签。 参考文献............................................................................... 46 附 录 硕士期间论文发表和专利申请情况错误~未定义书签。 1 绪论 1.1 课题的研究背景及意义 声源测向技术是通过电子和声学装置采集声源信号来探测声源方向的一种技术, [1]它在很多领域都有着广阔的应用前景。根据不同的探测方式,声测技术可以分成主动声测技术和被动声测技术。主动声测技术由发射和接收装置组成,比如根据主动声纳的发射信号的回波来判断目标源的位置。本课题研究的基于麦克风阵列的声源测向技术属于被动测向技术,它只有接收装置。麦克风阵列是指将若干个麦克风按照一定的几何结构组成阵列形式,相较于与单个麦克风有很多的优势。它具有较强的空间选择性,不需要移动麦克风就可以以电子扫描的方式实现目标声源的自动定位跟踪。基于麦克风阵列的多声源测向是指对麦克风阵列采集的多路语音信号进行分析处理,在多个声源的平面内得到各个声源的方位角,它相较于传统的测向系统具有隐蔽性强、可视距远、不受电磁波干扰等优势。 早在20世纪80年代,国外的一些发达国家就已经取得了一定的研究成果。在声测预警方面,以色列研制了一套AEWS声测预警系统,它可以探测慢速飞行的固定翼飞机、直升机、微型飞机等,其实质是一个声学传感器网络,将采集到的信号通过内部的控制中心处理得到的定位数据传送到地面作战指挥所;在直升机探测方面,英国Ferranti公司的 Picker直升机报警器和瑞典Swetron 公司的Helisearch直升机声测系 [2]统采用是被动式声探测技术,它是根据接收到的时延值来判断声源方向的。其探测距离能够达到 15-20 km,方位精度可以精确到1度,同时它还有很强的多目标识别、探测的能力;在炮位侦查方面,具有代表性的是瑞典SATT通信公司研制的SORAS-6 [3]声测系统和美国工SC技术公司研制的PALS被动声探测系统。这两套系统都由无线电装置,传声器,信号处理计算机和测试子系统组成,它可迅速地测定火炮方位,并且具有很强的抗干扰性。在语音信号处理领域,早在二十世纪八十年代传声器阵列就已经被应用到语音识别、语音增强等系统中。进入二十世纪九十年代以后,它又有了很多其他方面的应用,如大型场所的会议记录、车载环境中的语音获取以及助听装置[4]等。由此可见,声探测技术在很多军用和民用系统中有着相当重要的意义。 目前,国内外已经出现了很多相关的产品,并已广泛地应用到社会各个领域,尤其是近年来无线传感器网络(wireless sensor networks, WSN)在学术研究和工业应用等领域都受到了极大关注,而其中基于传声器阵列的声测节点通过网络融合进行目标感知、定位、跟踪等方面的研究也成为当前研究热点之一,因此开展基于麦克风阵列的多声源测向方法研究有着较为重要的意义。 1.2 基于麦克风阵列的声源测向技术简介 1.2.1 麦克风阵列声源测向技术的特点 麦克风阵列是分布在空间中的、按照一定方式排列的多个麦克风以更好得获取目标的空间信息。它是在传统的阵列信号处理基础上发展起来的,和传统的阵列信号处理的区别在于以下几个方面: (1)传统阵列信号处理的是有调制载波的窄带信号比如雷达信号。而麦克风阵列处理的是没有经过调制的宽带信号,频率一般集中在30~3000Hz。 (2)传统阵列信号处理的通常是准平稳或者平稳信号,但是麦克风阵列处理的通常是非平稳的语音信号。 (3)传统阵列信号处理一般建立在远场模型的基础上,而麦克风阵列可以根据实际不同的情况选择近场或者远场模型。 麦克风阵列实现被动声源的测向的方法较其他探测方法而言,它具有以下几点优势: (1)不受视线的限制。由于声波可以绕过障碍物,因此声探测系统可以探测障碍物后的声源位置,突破了激光,无线电等探测方式的局限。 (2)隐蔽性好。基于麦克风阵列的被动声探测系统可以避免电磁波的干扰,工作隐蔽性强,不易被发现。 (3)受外界环境的影响小。声探测系统可以在阴天、雾天等环境下正常使用,受外界环境影响较小。 (4)生产成本低。由于声探测系统的成本相对较低,因此它可以实现大量地布设,以扩大侦测的面积。 1.2.2 麦克风阵列声源测向技术的应用领域 随着对麦克风阵列技术的不断深入研究,基于麦克风阵列的声测系统应用也日益广泛,在国防军事、音/视频会议、人机交互等许多领域方面都有重要的开发潜力与科研价值。 在国防军事领域,声源测向技术最早被应用在飞机、坦克、火炮等目标的探测方面,为了提高准确度,也常结合其他探测方式比如磁场探测、红外探测等。目前国内外又利用该技术为战车和单兵系统配备了便携式的声测系统来帮助士兵监测战场的环 [5]境,这些便携系统可以快速准确地检测到炮位、飞机或坦克等方位。 此外在反狙击手方面声测向技术也得到了很好应用。在城市巷战中,只有准确、快速地发现并消灭狙击手,才能保障进攻方的行动安全。反狙击手声测定位仪通过接收并测量膛口激波和弹丸飞行产生的冲击波来确定狙击手的位置,常见的有固定设置 [6]车载型和单兵佩挂型。 在民用方面,声源测向技术最早被应用在大型会场与视频会议当中,若将一个麦克风放在某个固定位置,那么当说话人距离麦克风较远时,最终的语音信号将会变弱,为了使该语音信号增强,通常当谁发言时就把麦克风传递给谁,这种方法成本低,但是使用不便。或者为每个人配置一个麦克风,然而这种方法在参会者众多时花费太高,不太符合实际。然而当采用基于麦克风阵列的声探测系统时,说话人在发言的时候能够自动地把摄像机与麦克风阵列聚焦到说话人,从而增强说话人的声音,与此同时也抑制了会场中的噪声。这样在提高了音视频结合的效果的同时也避免了安放多个采音 [7]系统,从而节省了很多成本。 麦克风阵列的声测向系统在车载电话应用方面也起着很重要的意义。驾驶员如果在高速驾驶时手接电话就容易产生安全问题,为避免这一安全问题出现了车载免提电话。但是当车内环境噪声较大或者车内有多人说话时就对车载电话的接听产生影响,这时如果将麦克风阵列自动定位驾驶员的位置,那么就可以针对该位置加强驾驶员的声音,与此同时抑制来自其他方向的噪声。这样就能使车载免提电话的效果得到大大提升。 随着科技的发展,机器人开始进入人类的生活为人类进行服务。语音是一种控制机器人最常见的方法,人类通过对机器人下达语音指令来使机器人完成一系列工作。所以机器人可以通过安装在身上的麦克风阵列来实时的定位出当前用户的具体位置。 [8]在多机器人协作系统中,也常常结合基于激光,超声波,视觉的定位方法。和这些定位方法相比,基于麦克风阵列的声源测向有可视距离远的优点,因此在有障碍物遮挡或者光线不好时都可以起到很好的定位作用。 1.3 论文的结构安排 第一章:主要介绍本课题研究的背景,特点以及应用领域。 第二章:主要介绍声源测向技术中传统的几种算法,如最大输出功率的可控波束形成方法,高分辨率谱估计法,时延估计法等等,并且分析这几种算法各自的优缺点。 第三章:研究双阵元麦克风阵列时延估计方法,主要包括简要介绍双阵元麦克风阵列模型以及几种传统的时延估计算法,如广义互相关法,最小均方自适应滤波法,互功率谱相位法。然后介绍基于语音信号时频正交特性的时延估计算法(DUET),包括DUET算法的主要流程以及实验仿真,最后指出了该算法在宽间距麦克风阵列情况下存在的相位卷绕问题。 第四章:详细阐述了本文提出的基于迭代时频掩蔽的宽间距麦克风阵列相位解卷绕方法,说明了方法原理和实现步骤,进行了仿真实验和外场实验验证,并对实验结 果进行了分析。 第五章:结合语音端点检测技术,也即语音活动检测(voice activity detection, VAD)技术,给出了宽间距麦克风阵列多声源实时测向方法的实现过程,通过仿真实验验证了该方法的可行性。 第六章:对本文进行了总结,并对未来进一步开展研究的思路进行了展望。 2 基于麦克风阵列的声源测向算法 2.1 基于最大输出功率的可控波束形成的方法 可控波束形成法是出现最早的一类测向方法,常被应用在声纳、雷达和移动通信方面。该类算法的主要过程是,在频域内将各个传声器阵元接收到的信号通过加权求和来形成波束,然后调节阵列的接收方向,使其在信号接收空间内进行扫描来搜索目标可能的位置,同时不断地修改调整加权值使阵列的输出功率达到最大,此时指向的 [9-10]波束输出信号功率最大的点就是声源的位置。 采用不同的波束形成器可以得到不同的算法,目前主要有两类算法,一是时延求和波束算法,另一个是自适应波束算法。时延求和波束形成器的相位和信号到达的时间差有关,该波束形成器的权值主要取决于阵元信号的相位延迟。其原理如下图所示: (ω)X0-1 R(ω)0τ0 X(ω)1-1 R(ω)1τ1 形成波束2 ()H(ω)?P(ω)dωX(ω) M-1-1R(ω)M-1τM-1 图2.1 时延求和波束形成法原理 M如果有个线性排列的麦克风阵元,声源信号表示为st(),高斯白噪声表示为i ,wt()st()wt(),,和是互不相关的随机过程,搜索的声源方位角为,为声源到达阵iiii i元的时延。暂不考虑能量衰减和混响的因素,则第个阵元采集的信号可以表达为: xtstwt()(())(),,,,, (2.1) (1,2,...)iM,iii 对上式进行傅里叶变换可以得到: ,jw,,()iXeSW()()(),,,,, (1,2,...)iM, (2.2) ii ,式(2.2)在频率处的向量形式为: l XVSW()()()(),,,,,, (2.3) llll TT其中,XXX()[(),...,()],,,,WWW()[(),...,()],,,,,,01,01,llMlllMl ,jw,,jw,T0M,1Vee()[,...,],,。 l X(),由于是一个高斯随机过程,所以它的条件概率分布可以表示为: l 1H,1 (2.4) PXXPX,,,(|)()exp{}MPdet, 其中的为阵元接收信号的互谱密度 P(),xt()li H (2.5) PEXX(){()()},,,,lll 将式(2.3)代入式(2.5)可以得到 H (2.6) PRVVR()()()()(),,,,,,,lslllwl 2其中,。 REWW()[()()],,,,RES()[()],,,wlllsll 对式(2.4)求对数可以得到: M (2.7) ln((()|))ln(det)pXPQ,,,,,,l 其中, H,1 (2.8) QXPX,, ,, 选择合适的使得式(2.7)取得最大值,即也就是为最大时,这时候的就PX(|),是我们需要的目标源的方位估计。求式(2.7)的最大值也就相当于求 22PHZ()()(),,,, (2.9) lll 的最大值,其中 ,,,111H (2.10) HRVRV,,[]sW H,1 (2.11) ZVRX()()()(),,,,,LlWll ,此时我们所求的信源方位角为: ˆ,,,,argmax{()}Pd (2.12) ,, 图2.2所示为一种可控波束形成算法的仿真,其中阵元个数为15,目标源位置为20?。 图2.2 可控波束形成算法仿真示例 基于时延求和的可控波束形成方法原理简单,容易实现,计算量小,但是也存在一些缺点,如它的抗噪性能较差,通常需要增加阵元个数才能得到提高它的抗噪性能,这样势必会增加成本。对于自适应算法来说,由于它存在自适应滤波这一过程,所以不仅会增加运算量而且会导致输出信号有一定的失真,不过自适应算法需要的麦克风个数较少,成本小。从本质上来说可以将可控波束形成法看成一种最大似然估计,因此它同样需要声源和背景噪声的先验知识,但这种先验知识在实际应用中通常很难获得。除此之外,因为最大似然估计又属于非线性优化问题,对初始点的选择比较敏感,而且它的目标函数一般有多个极点。所以,利用传统的梯度下降法通常会陷入局部极 [11]小点导致找不到全局的最优点。 2.2 基于高分辨率谱估计技术的方法 高分辨率谱估计法是建立在时域谱估计、空域滤波基础上的一类算法。它是利用接收信号相关矩阵的空间谱,通过求解阵元间的相关矩阵来获得最终目标的方位角[12]。此类算法的提出主要是为了提高处理带宽内信号的角度分辨率,估计精度等。目前主要的方法有最小方差谱估计法(MV)、自回归模型法(AR)、ESPRIT法和特征值分 [13]解法(如MUSIC法)等等。这些方法定位精度一般都比较高,并且已成功地应用在阵列信号处理系统中,但是这类方法在声源测向中的应用效果往往不太理想。其原因主要有以下几个方面: (1) 高分辨率谱估计算法所需的信号空间相关矩阵在实际应用中通常是未知的, [14]需要经过估计信号的时间平均值才能得到。这就要求在整个估算过程中信号平稳,但是声音信号是一个短时平稳的过程,因此高分辨率谱估计方法在声源测向应用中的鲁棒性没有传统的波束形成方法好。 (2) 高分辨率的谱估计法往往需要信号源是理想点源,并且要求麦克风的特性完全 相同,由于这些要求在实际中很难做到,所以将会导致误差较大。虽然,我们可以采用一些方法来减小这些因素的影响,但这会大幅度地增加计算复杂度和运算量。 (3) 高分辨率谱估计法通常是假定声源在远场,当需要近距离声源测向的时候,此方法误差将会非常大,因此该方法不适用于近场的声源测向。 (4) 高分辨率谱估计法一般处理的是窄带信号所以处理语音这一类宽带信号时,必须对已有的算法进行改进,这也势必会增加它的运算量。 2.3 基于声压幅度比的方法 这类基于声压幅度比的方法和双耳效应中的耳间声强差的原理相似,由于声源信号在到达不同麦克风的过程中在声音强度上有不同程度的衰减,所以我们可以利用这个强度差异再结合一些其他条件就能判断出目标声源的方位。首先利用麦克风处产生的输出电压和声源与麦克风间的距离推导出一个约束条件,然后再用这个条件在三维空间里确定出一个球面。同理对于每个麦克风,我们都可以推导出这样的一个约束条件,最后结合这些约束条件就可以确定出声源的位置。我们以二维平面上的声源定位问题为例简单地对此类方法进行分析。示意图如下所示。 图2.3 二维平面声压幅度比声源定位示意图 设在X轴上有四个麦克风,它们以相等的间距排列,坐标依次为(-3a,0),(-a,0),(a,0)和(3a,0)。设声源的坐标位置为S(x,y),那么声源到四个麦克风的距离分别为: 22rxay,,,(3) (2.13) 1 22rxay,,,() (2.14) 2 22rxay,,,() (2.15) 3 22rxay,,,(3) (2.16) 4 如果第i 个麦克风采集到的的声压幅度是,则有如下关系表达式: et()i 2etr()12 (2.17) ,2etr()21 2et()r34 (2.18) ,2etr()43 将式(2.17)、(2.18)代入上面(2.13)~(2.16)可以得到只有变量x和y的一个二元二次方程组。结合该方程组得到解和声源的先验知识,就能够得到目标源的具体位置。同理在三维空间的情况下,我们只要通过不在同一个平面内的四个麦克风就能得到声源的具体位置。 基于声压幅度比的方法原理简单,易于实现,但是该类算法的准确度很容易受外 在条件的影响,比如麦克风灵敏度不一致,环境噪声,采样率等因素。2.4 基于时延估计的方法 除了上述的几种传统测向算法,近年来发展起来的基于时延估计的测向方法由于它运算量小并且精度相对较高而被广泛地应用。时延估计算法的基本思想分两步:第一步首先估计出两两麦克风之间的时间延迟值,时延值的估计目前主要有广义互相关GCC(Generalized Cross Correlation ) 法、互功率谱CSP(Cross-power Spectral Phase) 法、LMS 自适应滤波器法以及高阶统计量法等等。其中的广义互相关法运用的最为广泛,它是在基本互相关(GCC)法的基础上发展起来的,由于GCC算法的性能容易受到混响的影响,所以广义互相关法对信号在频域内进行加权处理,抑制混响及噪声带来的影响。第二步再利用估计出来的时延值,结合麦克风阵列的空间几何关系来获得 [15]声源的方位角,通常利用几何法或者搜索法,比如球型差值法。 例如在无混响,信噪比为10dB的仿真条件下,对时延值为20个采样点的单声源信号通过PHAT函数加权的广义互相关GCC得到的相关函数如下图2.3所示: 图2.3 GCC-PHAT加权函数法仿真 基于时延估计的方法成本低、实时性好、运算量较前几种传统算法大大减小。而它的不足在于:第一,由于该算法是分为两步完成的,在第二步中使用的参数是对过去时间的估计,说明这只是对声源方位的次最优估计;第二,在环境噪声较大或者反射混响强烈的情况下,会严重影响时延的精确度;第三,传统的时延估计方法通常比较适合单声源的测向,对于多声源的测向效果往往不够理想;第四,因为时延估计法受到系统采样率、阵列结构等条件的限制,所以此类算法的精度远远比不上超分辨类 [16-17]算法。在这三种定位方法中,基于时延估计的声源定位方法应用比较广泛,本文将重点讨论该方法。 3双阵元麦克风阵列时延估计方法 3.1 双阵元麦克风阵列信号模型 本文主要对最基本的双阵元麦克风阵列进行讨论研究,该阵列结构简单,开发成本小,算法复杂度也相对较低。当然,此类阵列也有不足之处,由于它的结构简单,所以它所获得的空间信息也相对较少,导致这类的声源测向系统的性能普遍偏低。另外,麦克风的数目也限制了该阵列的结构只能是直线型,所以会受到直线阵列局限性的影响。所以,我们可以从麦克风的类型、麦克风的间距、声源测向的算法等方面着 [18-19]手来提高双阵元麦克风阵列系统的性能。 利用麦克风阵列采集声音信号的实质就是对信号进行空间采样,因此采样过程会受到阵元间距的影响,这种影响和许多因素有关,比如信号的频率、系统的采样率和性能等。对均匀直线阵列来说,阵元之间的距离不可以太小,距离越小,到达两个麦克风所需时间的差异就越小,也就是说信号的偏移量就越小,给分析过程带来难度。然而阵元间的距离也不可以太大,否则会出现空间混叠的现象。由信号的空间采样定理我们可以得出,阵元间距不能大于最小波长的一半。从上述分析能够得出,麦克风的间距与精度、空间信息以及声源远进场的划分都离不开关系。所以我们在实际应用 空间采样定理、精度等因素来决定阵元之间中要根据实际情况,综合考虑阵列尺寸、 [20-21]的距离,以保证系统的良好性能。 阵列模型可以按照声源到麦克风阵列的距离近远划分成远场模型和近场模型。当声源离麦克风参考点的距离在信号波长范围内就属于近场,当声源离麦克风的距离超 [22]过信号波长的范围则属于远场。通常采用公式 2rL,2/, (3.1) 来区分。式中r表示声源离麦克风的距离,L阵列的长度,λ表示声源信号的最大波长。如果该式成立,则该阵列模型属于近场模型,否则属于远场模型。然而在实际应用中,声源的位置是不确定的,可能有时候离麦克风较近,有时候又较远。或者也有可能声源是动态的,时而处于近场时而又处于远场。因此,仅仅采用一种模型来对处理所有的声源测向是不合适的,我们要根据实际情况来选择合适的模型。 22/L,当声源和麦克风阵列的距离小于时,我们利用近场模型进行处理,将接收到的声波近似看做球面波。示意图如下,Mic1和Mic2表示两个麦克风,S表示声源位置,d1和d2分别为声源到两麦克风的距离,两麦克风的间为d 。我们从图中可以很容易地得到声音信号到两麦克间的相对时延为: dd,21 (3.2) ,,12c 图3.1 近场声波传播模型 近场中的声波是以球面波的形式来传播的,由于声源到两麦克风的传播距离不同,两麦克风接分别接收到的声音信号的幅度差异会很明显,所以必须考虑幅度差异在近场模型中产生的影响。假设声波到达Mic1的衰减因子为: d2 (3.3) ,,d1 则我们可以将在近场模型下,Mic1和Mic2接收到的信号模型表示为: xnsnvn()()(),,11 (3.4) ,,xnsnvn()()(),,,2122 式中表示声源信号,vn()和vn()表示背景噪声,三者为互不相关的正态平稳随sn()12 机过程。由图中的几何关系易知,由S,Mic1和Mic2有 222ddd,,21cos, (3.5) ,2dd2 ddc,,,将(3.2)变形为,并代入上式中可得: 1212 222dcdc,,,,212212 (3.6) cos,,2dd2 那么我们所需要的声源方位角为: 222dcdc,,,,2,112212 (3.7) ,cos(),2dd2 由上述的分析可知在研究近场模型时,为了确定最终的声源方位,必须具备两个参数,即声源与麦克风间的夹角和声源与麦克风间的距离。但是双麦克风阵列由于阵元数目较少而不能同时确定上述的两个参数,必须有一个为先验已知条件。所以,该 模型给实际应用带来很大的局限性。 2当声源距离麦克风阵列的距离大于时,我们利用远场模型进行处理,将接2/L, [23]收到的声波近似看做平面波。当声波以一种近似平面波方式传播时,两个麦克风之间的幅度衰减差异很小,因此可以认为近似相等。远场模型示意图如下: 图3.2 远场声波传播模型 ,d假设麦克风与声波到达方向的夹角为,两麦克风间距为,则Mic1和Mic2之间的时延为: (3.8) ,,,dccos()/12 其中表示声音在空气中的传播速度。 c ,利用得到的时延值我们可以很容易地得到目标声源的方位角。即 ,.c,112,cos() (3.9) ,d 综上所述,在远场模型中,我们为了得到目标声源的方位只需要知道时延估计值,即可。本论文针对基于双麦克风阵列的远场模型开展相关研究。 12 3.2 传统的时延估计算法 在基于到达时间差的算法中,时延估计是最关键的一步,它的精确度影响着整个算法的性能。所谓的时延估计就是通过一定的算法求得信号到达不同麦克风的时间延时值。一旦求得了时延值,结合一定的几何关系,我们就能得到声源的方位。目前常用的时延估计的方法有广义互相关(Generalized Cross Correlation,GCC)法,互功率谱相位(Cross-power Spectrum Phase,CSP)法、最小均方(Least Mean Square,LMS)自适 [24][25]应滤波等等。 3.2.1 广义互相关函数法(GCC) 广义互相关函数法是在基本相关法的基础上演变而来的,基本相关法是利用下式 [26]中的两个信号和的互相关函数来进行时延估计的。 xt()xt()12 RExtxt()[()()],,,,xx1212 ,,,,,,EstwtstDwt{[()()][()()]},,,12 ,,,,,,,,,EststDEstwt[()()][()()]2 (3.10) ,,,EstDwtEwtwt[()()][()()],,,,112 ,=1假设、、互不相关,则上式中的后三项都为0,不失一般性,令,wt()wt()st()12 则有: (3.11) REststDRD()[()()](),,,,,,,,xxs12 其中为的自相关函数,则由相关函数的性质可以得到,当RR(0)(),,RD(),,st()s ,,D时,达到最大值。此时两路信号互相关函数的峰值所对应的时刻就是所R(),xx12 求的时延估计D。 互相关函数的主极大峰越尖锐,找出的极大点位置就越精确。然而在实际环境中由于受到噪声的影响,相关函数的峰值将被延展以致主极大峰过于平坦,这样就影响极大点位置的判定导致时延估计产生较大的误差。鉴于这个缺陷,人们又在基本相关法的基础上研究出广义互相关法,使得算法的性能得到了大大地提高。 广义互相关法是在基本互相关法的基础上引入了一个加权函数,通过对互功率谱密度的调整来提高互相关函数性能。它选择不同的加权因子对两路信号之间的互功率进行加权,对混有噪声的信号进行白化滤波,这样可以抑制噪声的影响,使互相关谱 函数在时延处的峰更加尖锐,很容易地辨别出峰值的准确位置,最后再将频域反变换到时域,得到广义互相关函数。这样就可以使互相关函数的峰值得到一定的锐化,从 [27-28]而提高了时延估计的精度。广义互相关法的原理示意图如下: 图3.3 广义互相关时延估计法原理图 xt()xt()yt()yt()yt()yt()现将两信号和进行滤波成和,然后再求和的互相关函111222数,最后通过峰值检测得到时延估计值。 xt()xt()在上图中,和经过滤波后得到的互功率谱函数为: 12 *GfHfHfGf()()()(), (3.12) yyxx121212*GfFFTxtFFTxt()(())(()), (3.13) xx1212 xt()xt()*表示复共轭,则和的广义互相关函数可以表示成: 12 ,12jf,,, (3.14) RFGffGfedf()[()]()(),,,,yyyyxx,111212,, 其中, * ,()()()fHfHf,12 ˆ在实际情况下,我们只能在有限的观察时间里得到的估计值。因此Gf()Gf()xxxx1212我们将上式改写为: ,12jf,,,ˆˆˆ (3.15) RFGffGfedf,,,,()[()]()()yyyyxx,111212,,*其中的就是权函数。由此可以知道滤波的过程实质是在对互功率,()()()fHfHf,12 谱进行加权。当时就是上述的基本互相关法。为了提高精确度,我们又在基,()1f, 本互相关法的基础上提出了一些加权函数,例如PHAT权函数、Roth权函数、SCOT 权函数、ML权函数等等。 (1) 相位变换加权(PHAT) 1,()f,权函数, Gf()xx12 ˆGf(),xx2,,jf12ˆ,, (3.16)那么它的广义互相关函数表达式为:Redf()yy,12,,Gf()xx12 ,,jfjfD,,()2ˆGfeGfe()()Gf()xxxxxx121212,,理想情况下有: GfGfGf()()()xxxxxx121212 RD()(),,,,,则 yy12 由此可见,从理论上来讲,即使是处理大信噪比的信号,PHAT加权不会出现锋 ˆR(),GfGf,扩散问题,然而实际上由于()(),则导致从严格意义上来讲并不yyxxxx111212 ,Gf()是一个函数。此外因为PHAT的加权函数是。所以当信号能量过小的,()fxx12 部分,分母会趋向于零,这样会产生很严重的误差。 (2) Roth函数加权 1权函数, ,f,()Gf()xx11 ˆGf(),xxjf2,,12ˆ,,Redf()那么它的广义互相关函数表达式为: (3.17)yy,12,,Gf()xx12 GfGfGf()()(),理想情况下有: yyxxxx121211 ˆ这相当于是维纳滤波器,因此它可以减小信号估计易错的部分同时又能有Gf()xx12 效地抑制较大的噪声功率,但它也会带来一些副作用比如说展宽相关函数的峰,出现虚假峰值导致最终结果的偏差。 (3)平滑相干变换(SCOT) 1权函数 ()f,, GfGf()()xxxx1222 那么它的广义互相关函数表达式为: ,,1jfjf22,,,,ˆˆˆ (3.18)RGfedfedf()(),,,,yyxx12,,1212,,,,GfGf()()xxxx1222 其中的相干系数: ˆGf()xx12ˆ,, 12GfGf()()xxxx1122 当GfGf()(), 时,可以发现此时的SCOT加权法和Roth加权法是一样的,xxxx1122 我们可以将SCOT加权函数看成是对Roth加权函数的改进,因为它还考虑到了两个通道各自的影响,但同样它也会带来峰扩展的现象。 (4)Eckart 加权法 Gf()ss11权函数 ,()f,GfGf()()wwww1122 那么它的广义互相关函数表达式为: ˆGfGf()(),,xxss()2Ejf,,1211ˆ,,Redf() (3.19) yy,12,,GfGf()()wwww1122 GfGfGf()()(),,当两路噪声相互独立时,,并且信噪比为wwwwww1122 SNRfGfGf()()(),,那么: ssww Gf()xx212 (3.20) GfSNRf()(),yy12Gf()ss 显然的,Eckart加权法其实质是对相关函数的信噪比进行加权,所以在小信噪比的情况下它是一种最优估计器。此外,该方法需要具备信号和噪声谱的先验信息,但由于麦克风接收到的是信号与噪声的叠加,无法单独提取信号和噪声,所以这对实际的应用来说有一定的难度。 (5)最大似然加权(ML) 2,()f12权函数 ,()f,2,Gff()[1()],xx1212 其中的表示相干系数。 ,()f12 其互相关函数为: 2ˆGff,()(),,xx12,,Mjf()212ˆ (3.21) ,Redf(),yy,212,,,Gff()[1()],xx1212 信噪比定义为: 2()f,12 ,SNR2,1()f,12 可见,最大似然加权函数本质上也属于信噪比加权。该处理器在信噪比小的情况下按照信噪比平方加权,在信噪比较大的情况下按照信噪比加权。 上述的几类广义互相关法都是以相关技术为基础,对接收信号进行加权预处理,根据各自加权形式和 准则 租赁准则应用指南下载租赁准则应用指南下载租赁准则应用指南下载租赁准则应用指南下载租赁准则应用指南下载 的不同,分别形成了上述的几种五种广义互相关时延估计方法。广义互相关法的假设前提是无混响且无相关噪声,因此这类方法只能用于单声源、无相关噪声的场合而不适用于多声源定测向和具有方向性干扰的情况。此外,广义互相关法的加权函数需要信号和噪声的先验知识,而在实际应用中只能在有限的观察时间内进行计算得到估计值。尽管此方法存在一定的误差,但是由于它运算量小、易于实现等特点,还是被广泛地应用到在一些对精度要求不高的实时系统中。 3.2.2 最小均方(LMS)自适应滤波 鉴于广义互相关时延估计法的一些局限性,其一是抗干扰能力较差,其二是完全依赖信号和噪声的先验知识,其三该法只适用于时延值为常数的情况,当声源位置发生变动从而引起时变的时延参数时,广义互相关法就无法处理了。为此引入最小均方自适应滤波法,它可以在迭代过程中通过不断调整自身的参数来跟踪动态或时变的输入参数,因此它几乎不需要先验知识。 LMS自适应滤波法的主要思想是:将两个麦克风采集到的两路声音信号分别当作输入信号和目标信号,在一路信号中加入延时然后不断调整自适应滤波器的系数,即该路信号的时延值使它不断逼近另一路信号,使两路信号间的均方误差最小,相关性 [29-30]达到最大,此时对应的时延值也就是两路信号之间的时延。LMS自适应滤波法的原理示意图如下所示: 图3.4 最小均方自适应滤波示意图 由上图可以得到如下两个表达式: (3.22) ,,()()()nxnyn,,,1 p (3.23) ynhnxnm()()(),,,2m,,mp 该系统首先通过比较两路信号的大小,将得到的差值经过自适应算法的处理,()n 反馈到自适应滤波器,调整的时延大小使得在接下来的过程中两路信号间的均方yn() 误差不断减小。在下一个时刻,系统会继续比较两路信号大小然后将得到的新差值再反馈给自适应滤波器,不断地重复这样的过程,两路信号间的均方误差将会慢慢达到最小值,这就是我们所说的最小均方自适应滤波法。上式中的是自适应滤波器的hn()m 系数,当hnRnRn()()(),时,两路信号的均方误差达到最小值,这时再通过检测xxxx1222 自适应滤波器系数的峰值,就可以得到所需的两路信号间的时延值。 通过上述分析可以知道,LMS自适应滤波法原理简单,收敛性好,精度有所提高。但同时该方法也存在一些不足之处。首先由于自适应滤波器系数调整是一个学习的过程,所以它的计算量远大于广义互相关法。其次,该方法需要足够长的滤波器长度,长度越长精度越高,因此将会导致系统处理速度过慢。然后,虽然该方法不需要信号和噪声的先验知识,但是它却更依赖输入信号的统计特性,信号分布白化程度越高,则系统性能就越好。 3.2.3 互功率谱相位法 通过对上述两种方法的分析可以得知,算法的精度和运算量之间总是存在着矛盾,精度高的算法运算量大,运算量小的精度却不理想。本小节介绍的互功率谱相位法可以解决这一矛盾。 假设两麦克风接收到的两路信号分别为: xnsnnn()()(),,,,, (3.24) 1111 xnsnnn()()(),,,,, (3.25) 2222 将两路信号做傅里叶变换可以得到: ,jw,1 (3.26) XwSweNw()()(),,,111 ,jw,2 (3.27) XwSweNw()()(),,,222 由于信号与噪声之间互不相干,两路噪声之间也互不相干,因此两路信号之间的互功率谱可以表示成: Gw()12 ,,jw(),,*21 (3.28) GwXwXwGe()()(),,,,121212ss 对加权后的互功率谱做傅里叶反变换,即可得到广义互相关函数: ,jw, (3.29) RawGwedw()()(),,1212,,, 式中的是加权函数。将其归一化为,则有: awGw()1(),aw()12 ,jw, (3.30) Redw()(()),,,,,,,,,,,121221,,, 通过与广义互相关法的比较可以发现,互功率谱法的广义互相关函数中只有信号的相位信息而去除了幅度信息,相当于对信号做了一个白化滤波,这样对噪声起到了很好的抑制作用。 上面介绍的三种时延估计法都是基于相关函数实现的,LMS自适应滤波法其实也算是通过迭代实现的广义互相关,互功率谱法实际上是广义互相关法的一类加权,用于消除幅值的影响,三种方法的本质其实是一样的,在应用中可以根据实际需求选择合适的方法。 3.3 基于声源信号时频正交特性的时延估计方法(DUET) 通过前几章节对传统时延估计算法的介绍可以了解到在单一声源的情况下,我们可以通过求解麦克风阵元信号之间相关函数最大峰值的偏移时间来估计两路信号间时延值。然而语音信号是非白的,传统的互相关法及其变形都因为时延旁瓣过高而无法对多声源进行测向。因此,目前出现的一类基于时频稀疏特性的算法因其实现简单、可对多个声源进行测向而备受关注,其中的退化分离估计技术(DUET)应用最为广泛。 [31]DUET技术最早主要被应用在盲源分离领域中。在该领域的研究中,经常假设源信号是相互独立、正交和非稳定的,这种独立、正交、非稳定特性也正符合语音信号的特点。在盲源分离的研究中,很多方法对于瞬间分离是适用的,但是对于存在传播延时的情况就失效了,此外,当源信号的个数大于麦克风个数时尤其具有挑战性,我们把这种情况叫做退化。在退化的情况下进行盲源信号分离是有难度的,这是因为此时的混合矩阵是不可逆的,因此用通过估计混合矩阵来分离的传统方法是不可行的[32-33]。Van Hulle 提出的DUET算法利用对幅度衰减参数和时延估计参数的聚类的方法可以仅利用两个麦克风就能分离较多数量的声源信号。该算法的主要思想即认为在 一个给定的时刻只有一个声源信号存在,只要源信号的时频图没有太多的交叠,仅用两个同质麦克风就可以分离任意多个声源信号,这一点对于语音信号来说是非常适用的。DUET分离退化混频信号的过程主要是通过分离混合信号的时频图来实现的。即利用语音信号的时频稀疏特,DUET假设这些源信号在时频图上他们是相互分离的,换句话说,在时频图上的某个时刻,对混频信号平均能量有大贡献的时频点很有可能 [34-35]是仅仅受控于一个源信号。 3.3.1 语音信号的加窗分帧处理 由于语音信号只在一小段时间内是平稳的,所以我们需要对语音信号进行分段后再进行后续的处理。虽然可以采用连续分段的方法,但是为了保持信号的连续性使得 [36]帧与帧之间平滑过渡,我们通常采用交叠分段的方法,前后帧的交叠部分称为“帧移”,帧移和帧长之间的比值通常取0-1/2,如图3.5所示。 图3.5 帧移和帧长的关系图 语音信号的分帧是利用可移动的有限长度窗口进行加权来实现的。即用窗函数 和信号相乘,得到加窗后的信号为: wn()sn() snsnwn()()(), (3.31) w 常用的窗函数有两种,一种是矩形窗,窗函数如下(其中N为帧长): 1,0(1),,,nN, (3.32) wn(),,0,nelse,, 另一种是汉明窗,窗函数如下: n,0.540.46cos(2),0(1),nN,,,,, (3.33) wn(),N1,, ,0,nelse,, 窗函数wn()的选择要考虑两个因素一个是窗口的形状,另一个是窗口的长度。窗函数的选择合适与否影响着语音信号短时分析参数的特性。所以为了使短时分析参数 [37]更好地反映语音信号的特性变化,我们应该选择合适的窗函数。 窗口形状的选择:所谓的加窗处理就是在时域将语音信号和窗函数相乘,为了使窗口两端边缘平滑过渡为零避免急剧变化的发生,我们应当减小时间窗两端的坡度,这样可以减小短帧的截断效应。在频域方面则应需要有较小的边带最大值和较宽的3dB带宽。下面是两种窗口的比较: 表3.1 矩形窗和汉明窗的比较表 窗函数 主瓣宽度 旁瓣峰值幅度/dB 阻带最小衰减/dB 矩形窗 4/,N-13 -21 汉明窗 8/,N-41 -53 通过对表中数据的分析可知,汉明窗的主瓣宽度是矩形窗的两倍,即它的带宽增加了一倍,此外,它的带外衰减也大约是矩形窗的两倍。因此,汉明窗相较矩形窗来说,更能够保证波形成分的完整,选择汉明窗更为合适。 窗口长度的确定:采样周期()、窗口长度(N)以及频率分辨率()三者之Tf,1,fss 间的关系如下表达式所示: 1 (3.34) ,,fNTs 从表达式中可以知道,当采样周期确定后,当窗口长度取长,则频率的分辨率会提高,时间的分辨率却降低;当窗口长度取短时,时间的分辨率提高而频率的分辨率下降,可以看出两者的变化互相矛盾。例如当N值比较大的时候,它就相当于非常窄的低通滤波器,表明波形细节的高频部分被滤除,信号短时能力几乎不随时间的变化而变化,不能如实地反映语音信号幅度变化。反之,如果N值偏小,滤波器的通带加宽,那么短时能量将随时间产生很大的变化,这就会导致得到的能量函数不够平滑。因此要按照实际需求来算出窗口的长度。例如在20kHz采样率下,窗口长度N通常取200点-600点即可(即10ms-30ms的短帧时间)。 3.3.2 W-Disjoint Orthogonality (WDO)特性 语音信号是时频稀疏和短时正交(W-DO:W-disjoint orthogonality)的。稀疏性的意思是在时频域上每个声源的能量只集中在比例很小的支撑域内,正交性的意思是多个 [38-39]声源的时频支撑域几乎互不交叠。即假设一个窗函数Wt(),如果两个语音源信号st()st()和经过加窗傅里叶变换后,在时频图上的各自支撑域是互不交叠的,即认为jk st()st()st()两语音信号和短时正交。其中,的加窗傅里叶变换定义为:jjk ,1Wiwt,ˆ (3.35) sFsWtstedt,,,,,,,,(,)[](,)()()jjj,,,2, 即短时正交性即可表达为: ˆˆ (3.36) ss,,,,(,)*(,)=0,,,,,,,jkjk 然而,在实际多个语音信号同时发生的情况下,由于活跃的语音信号在时频域内几乎很少完全为零,所以严格意义上不会完全满足上述等式。但又因为语音信号经过短时傅里叶变换后在时频支撑域内是稀疏的,只要满足在短时帧内某个声源的能量远大于其他声源,我们就可以认为语音信号近似满足W-DO特性。W-DO特性近似程度越高越能将混合语音分离。下面通过实验仿真说明了在时频域上语音信号近似满足正交性。 (a) 声源s1的语谱图 (b) 声源s2的语谱图 (c) 声源s1和s2语谱相乘结果 图3.6 语音信号近似W-DO特性仿真图 st()st()该仿真中的两段语音信号和的时长均为3s,采样率均为16kHz的语音信21 号,分别对其加汉明窗后做1024点FFT变换,其中窗长为240点(即帧长取15ms),帧移为120点。 ˆ图3.6 (a) 是语音信号经过加窗傅里叶变换后得到的时频图,图3.6 (b) s(,),,st()11 ˆ是语音信号经过加窗傅里叶变换后得到的时频图,图3.6(c)是语音信号s(,),,st()22 ˆˆ和的两时频表达式相乘后得到的时频图。通过这三幅图的比ss(,)(,),,,,st()st()1221 ˆˆ较可以明显看出,将两时频图相乘得到的结果中所包含的能量成分显ss(,)(,),,,,12 ˆˆ著比或者都要少,这说明在每个特定的时刻其主要能量贡献的最多只s(,),,s(,),,12 有一个源信号,其他源信号在该时刻的能量贡献几乎为零。因此,我们可以认为语音信号近似满足WDO特性。利用语音信号这一特有的性质,我们将在下一小节具体介绍DUET算法的主要流程。 3.3.3 DUET算法主要流程及仿真结果 在无反射无混响的情况下,假设由N个语音源信号组成的混合信号s(t),?,s(t)1N 被一对同质麦克风接收,则两路无混响混合信号可以表示成: N xtst()(), (3.37) ,1j,1j N xtast()(),,, (3.38) ,2jjj,1j 其中N表示源信号的个数,表示麦克风1接收到了一路混合信号,表示麦xt()xt()12 ,a克风2接收到的一路混合信号,表示两个麦克风之间的相对延时,表示相对的衰jj减因子,相当于源信号到麦克风传输途中的衰减比率。基于无反射无混响的假设前提下,我们首先将两个麦克风分别接收到的两路混合语音信号的时域表达式做加窗傅里叶变换后转换成时频域表达形式,即 ,,ˆs(,),,1,,ˆ1?1x(,),,,,1,,,?,,,,i,,,,,i,N1,,ˆ,,ae?aex(,)N,2,1,,,,ˆs(,,,)N,, (3.39) 又由于语音信号近似满足WDO特性,即在时频域具有短时正交特性,所以可以认为在每一个时频点(,),,处,最多只有一个声源起主导作用。那么在每个时频点(,),,处都有如下的时频表达式, 1ˆ,,x(,),,,,1ˆs(,,w),,,,i,,j,,jaeˆx(,),,j2,,,, (3.40) j(,),,显然,在上式中的表示的是在该时刻点处占主导的声源信号的标号。此时,我 们再对每个时频点处的时频表达式都做如下处理, ˆx(,),,,iw,j2:,,,,Rae(,)=,(,),,,,jjˆx(,),,1 (3.41) ˆ其中,。 ,,,{(,)(,)0},,,,:sjj ,iw,j从每个时频点得到的中我们可以得到一些空间差异的相关信息,即麦克风间的aej 时间差和麦克风间的幅度差。每一个时频点的和参数可,,,(,),,,(,)a(,),,a(,),,以由下式得到: ,1((,),(,))((,),(,))aRR,,,,,,,,,,,,, (3.42) ,其中表示取复数的相位。 我们将(,)称为每个时频点的混合参数对。由于本文讨论的是远场情,,,(,)a(,),, 况下的多声源测向,麦克风间的幅度差异较小,因此我们暂时不考虑的影响,a(,),,主要研究这一参数,通过对它的分析就能得到声源的方位。假设在远场模型下,,,(,) ,d声源入射的平面波夹角为,两麦克风间距为,则声波到达两麦克风间的时间差为 c,其中为声速。那么,我们所求的声源方位角。这样,,=(dc)cos,,,arccos()cd我们就可以通过对时延参数的分析来得到声源的方位。示意图如3.7所示:,,,(,) 图 3.7 双麦克风阵列时延估计原理图 通过上述推理我们可以知道,要想得到声源的方位角问题关键就在于确定每个声 ,,,(,)源对应的时延参数。因此,我们对得到的所有参数对进行加权聚类,得到一个j 二维柱状图,由于对于来自同一个声源信号的那些时频点来说,它们的参数都散落在 ,,,(,)各自实际的时延参数值附近,因此从二维柱状图上我们就可以估计出每个声源j ,,,(,)的对应的实际时延参数,再根据一定的几何关系就可以得到各个声源的方位角j [40]。 下面通过一个模拟仿真来具体说明DUET算法在多声源测向方面的应用。有三段时长均为3秒,采样率均为16kHz的语音信号,通过人为构造混合,两路混合信号的表达式分别如下: xtststst()()()(),,,,1123 (3.43) xtststst()(3)(2)(1),,,,,,2123 正如上述表达式构造的那样,表示的是1号麦克风接收到的三个声源信号的混合xt()1 信号,表示的是2号麦克风接收到的三个声源在相对1号麦克风分别延时3个采xt()2 样周期,超前2个采样周期和延时1个采样周期的混合信号。 (a) 聚类柱状图 (b) 聚类投影图 图3.8 DUET算法仿真图 即当对所有时频点的混合参数对进行加权聚类后我们可以得到如图3.8(a)所示的二维加权聚类柱状图,图3.8(b)是对图3.8(a)的投影。从图3.8(a)中可以看到有三个很明显的峰,这意味着当前有三个声源信号,而每个峰所在的坐标值就是相对应的声源信号的实际混合参数对。这样我们利用图3.8(b)中每个声源对应的时延参数按照一定的几何关系换算可以估计出每个声源各自的方位角。 3.3.4 DUET算法的局限性 通过上述章节的介绍,我们可以将在盲源分离领域中被广泛应用的DUET算法应用到多声源测向的研究中来。我们主要利用语音信号在时频域短时正交的这一特性,仅用两个麦克风就可以估计出任意多个声源信号的方向。计算量小,成本低,容易实现。 [41]然而与此同时,这类算法也存在一个致命的缺点,即相位卷绕问题。正如我们所见的那样,整个算法的核心是要估计出每个声源的时延参数,,,(,),而这个时延参j 数是来自于对经过加窗傅里叶变换后混合信号的相位值的准确获得。但是由于傅里叶 ,iw,e变换所带来的复数因子必须要求所取的满足 ,否则会产生相位卷绕的,,,,, [42-43]模糊问题。下面我们通过一个简单的例子来具体说明这个问题。假设两路混合信号分别为: xstst,,()(), xstst,,,,(5)(3) 112212 对两路混合信号均做加窗傅里叶变换后,在时频域内通过计算得到的每个时频点的时 ,i5,i3,延参数值在理论上来讲应该是或者是。然而如果(1/)(),,,e(1/)(),,,e ,,,,/5,,,,s,由于此时的时延值为5,不满足。所以得到的相位值1 ,i5,i3,,,,/3。同样的,当时,得到的相位值。因此得到的时,,,()5e,,,()3e, ,,,,/3延参数不再是纯粹的两个值,而是当时对应的时延参数将会是一些随机的 ,d数值,这样势必会导致聚类的模糊。由于和麦克风间距存在着正比关系,因此, ,,,,为了使更多的时频成分在计算中满足以避免相位卷绕问题,我们只有不断地减 d,,c/小麦克风间距的值,使得它要小于。但这种限制又给实际应用带来了难度。m 例如,对于一个以16kHz采样得到的语音信号,最大频率成分为8kHz,则通过计算可以得知此时的麦克风间距大约在2cm。该间距要求由于麦克风物理尺寸的限制在实际中几乎无法实现,因此在下一章节,本文提出一种基于迭代时频掩蔽的宽间距麦克风阵列多声源测向方法以改善相位卷绕模糊产生的影响。 4基于迭代时频掩蔽的宽间距麦克风阵列相位解卷绕 通过上章节的分析可以知道,由于对两路混合信号和做了短时傅里叶变x(t)x(t)21 ,iw,,e问题转换到时频域中对复数因子的研究,所以才产生换,才将时域中的时延值 了必须满足否则会产生相位绕卷的模糊问题。由此可见,在时频域中,频率,,,, 越大的部分越容易产生模糊问题。接下来我们首先从无相位卷绕模糊的低频部分着手利用迭代时频掩蔽法来改善这一问题。 4.1 迭代时频掩蔽方法 首先通过对所有时频点的混合参数对(,)进行第一次聚类,在二维,,,(,)a(,),, 柱状图中能量最强的声源在低频区域(即不存在相位卷绕的区域)的混合参数对将被首 ,先估计出来,根据估计出来的时延参数,我们就可以找出该声源在高频区域所带来的相位卷绕部分,修正卷绕模糊部分的值。然后将属于该声源的时频点全部屏蔽做第二次聚类,对能量次高的声源信号进行如上处理,依次类推。也就是说,假设我们将 ˆˆ,,,,首先估计出来的时延参数记为,2,采样频率记为,如果能满足,则说明,ss 相应的该声源在直流到的频域范围内不存在相位卷绕引起的模糊问题,然而,如,2s ˆ,,,,,,2果不满足则说明在频域范围内将会存在相位卷绕的问题。此时,我们s ˆˆ,可以利用之前估计出来的利用下式推算出相应的理论相位值, ,,() ˆˆ (4.1) ,,,,,,()() ,其中的表示取其主值范围在的相位值。 ,,,,~ 然后我们在存在相位卷绕问题的频域内,将每个时频格通过上式计算得到的理论相位值和该时频格处实际的相位值一一相应做比较,只要当前时频格处的相位值 ˆ与其相应的理论值相接近,也就是说, ,R(,),,,,() ˆ (4.2) ,,,,,,,,,()((,))R ,,我们就标记该处时频点属于当前声源,其中的表示一定的容差范围。并且将 ˆ此处的相位值修正为理论值,然后再做上标记。这样当对所有的时频点都处理完,,() 之后,属于当前声源的时频点都已经被识别出来,并且属于该源的相位模糊部分也被修正。最后我们再将这些被标记的时频点全部屏蔽使其不再参与下一次的聚类,然后再按上述一系列步骤将属于能量次高声源的时频格屏蔽,并修正其相位模糊部分,按此不断地迭代聚类,最终将所有声源相应的模糊部分识别出来并修正。下面介绍一下该方法的具体步骤。 第一步:对所有时频点根据式(3.41)和(3.42)计算得到的所有混合参数进行第一次聚类,在得到的二维能量加权柱状图中,估计出最高峰所在位置对应的中心参数值 ,。然后将得到的这个时延参数值作为具有最高能量的当前声源的时延估计,我(,)a, ˆ们将它标记为。 , ˆ第二步:在不存在相位卷绕问题的低频域内,即,标记出那些时延参数,,,, ˆ与十分相近的时频点。 , ˆ第三步:利用上面的根据式(4.1)计算出在存在相位卷绕问题的高频域内(即, ˆˆ) 的每个时频点相应的理论相位值,然后将满足(4.2)的所有时频,,,,,,2,,()s ˆ点标记出来并且将它们的相位值修正为理论值。 ,,() 第四步:直到目前为止,属于当前声源的所有时频格都已经被标记出来,将标记出来的时频点做二值化屏蔽,再返回到第一步.在做过屏蔽处理的时频域内再次重新聚类,识别出属于次高能量的声源的所有时频点。不断地循环重复上述的步骤识别出属于各个声源相应的时频格,直到不满足下列条件中的任何一个:1) 余下的峰值幅度大于能量最大峰值的P%。2)余下的峰在迭代屏蔽前后的峰值幅度差异小于Q%。这两条件表明,如果当前没有需要处理的源信号或者当前的源信号能量太弱,即不满足条件1),于是我们就可以停止迭代聚类的循环过程。另外,如果二维柱状图中的当前峰是由于一些相位模糊值聚类出来的,那么它在迭代屏蔽处理的前后峰值幅度变化将会很明显,即不满足条件2),说明当前这峰不是源信号,因此我们可以停止迭代。在下一小节的实验中取P=25,Q=50。 第五步:将修正过的部分重新聚类到各自相应的声源。因此在最后聚类出的二维柱状图上将不存在相位模糊部分。 上述迭代时频掩蔽法的处理步骤对应流程图如图4.1所示。 开始 对混合参数预处理 对符合条件的混合参数聚类 Y余下峰值幅度>最大峰值25%, ˆ估计最高峰对应的时延值Or,余下的峰在迭代前后幅度差<50%, N在低频域内标记ˆ与 相近的时频点, 将修正后的结果重新聚类在高频域内,标记出属于当前源 的时频点并修正 结束屏蔽所有标记的时频点 再次从新聚类 Y 图4.1 迭代时频掩蔽法流程图 4.2 算法仿真及外场实验结果与分析 为了验证该算法的有效性,本小节在模拟仿真和实际环境中做了大量的实验,并且对实验结果进行了深入的理论分析。通过研究分析表明本文提出的迭代时频掩蔽法对宽间距麦克风阵列声源测向研究中出现的相位卷绕问题有明显的改善。系统可以用在实际环境中对二维平面内的声源进行测向。 4.2.1宽间距麦克风阵列双声源测向仿真实验结果与分析 在本实验中仿真条件如下:麦克风阵元的间距设定为25cm,远大于DUET法对阵元间距的限制范围,采样频率为16kHz。阵列数据长约2.7s,由两个相互独立的声音信号叠加而成。两个声源位置分别来自约45?和150?方向,为兼顾语音短时平稳特性,语音信号帧长取32ms,帧移为二分之一,对每帧数据加汉宁窗后进行1024点的STFT。两个麦克风接收到的混合信号模型可表达为 (4.3) XtStSt()()(),,,112 (4.4) XtStSt()(10)(8),,,,212 基于迭代法时频掩蔽的相位卷绕修正过程具体由图4.2(a)-(d)来分别描述。首先在图4.2(a)中描述的是没有经过修正的原始二维柱状图,在图中有三个峰,显然,其中中间那个较大的峰是由相位卷绕引起的模糊值所聚集而成的伪峰。图4.2(b)描述的是当前属于最高峰的相应时频点都被屏蔽之后的再次聚类结果。图4.2(c)表示的是将(b)图中最高峰相应的时频点全部屏蔽掉之后的结果。很明显此时在图4.2(c)留下的峰幅值已经非常小了,并且在两次的屏蔽处理的前后幅度值减小的幅度很大,很显然这个峰之前是由一些模糊值聚类起来的,因此到这步为止不需要继续再做迭代屏蔽处理了。最后,修正各个源各自相应的模糊值部分,然后再重新聚类。图4.2(d)所示为经过迭代屏蔽并修正后的最终结果图,此时图中只有在大约45?和145?方向有两个峰,原先的由模糊值聚类起来的伪峰几乎不存在。 (a) 初次聚类结果的柱状图(左)和投影图(右) (b) 迭代一次聚类的柱状图(左)和投影图(右) (c) 迭代二次聚类的柱状图(左)和投影图(右) (d) 修正后聚类的柱状图(左)和投影图(右) 图4.2 宽间距麦克风阵列双声源测向仿真图 4.2.2宽间距麦克风阵列三声源测向仿真实验结果与分析 本实验中我们介绍退化情况下仿真结果,即声源信号的个数大于麦克风个数的情况。仿真条件如下:麦克风阵元的间距设定为35cm,采样频率为16kHz。阵列数据长约3s,由三个相互独立的声音信号叠加而成,取帧长32ms,帧移15ms,每帧数据加汉宁窗后进行1024点的STFT。三声源分别来自在43?,120?,156?。两路混合信号的表达式为: (4.5) XtStStSt()()()(),,,,1123 (4.6) XtStStSt()(12)(8)(15),,,,,,2123 随着麦克风间距的拉大,越来越多的频域出现了相位卷绕的问题,很明显,在图4.3(a) 的二维柱状图中存在着由相位模糊值聚集而成的伪峰,通过不断的迭代聚类屏蔽直至剩下的峰幅度非常小为止,模糊值被不断修正,每个声源的时频支撑域被依次分别区分识别出来,具体过程如图4.3(b)-(e) 所示。 (a) 初次聚类结果的柱状图(左)和投影图(右) (b) 迭代一次聚类的柱状图(左)和投影图(右) (c) 迭代二次聚类的柱状图(左)和投影图(右) (d) 迭代三次聚类的柱状图(左)和投影图(右) (e) 修正之后聚类的柱状图(左)和投影图(右) 图4.3 宽间距麦克风阵列三声源测向仿真图 在图Fig.2(e)中最终聚类得到的二维柱状图中只有三个清晰的峰分别位于它们实际的方位。 4.2.3 外场实测结果与分析 在本小节中,我们基于自制的麦克风阵列及其处理系统,在户外较空旷环境下进行外场实验。麦克风阵元间距为16cm,采样频率为16kHz,语音时长约为5s。两人的实际站立位置分别位于约63?和115?方向。系统外场架设情况如图4.4所示。 图4.4 麦克风线阵装置图 利用传统的DUET算法直接处理的结果如图4.5(a)所示,可见此时由于麦克风间距的拉大,由于相位卷绕问题带来的伪峰严重影响了最终结果的判定。然而在经过本 可以看出得到的声源测向结果较处理文提出的迭代时频掩蔽法处理后,从图4.5.(d)中 前有了明显的改善。为简洁起见,省略了图4.5 (b)和图4.5 (c)的投影图。 图4.5(a) 利用传统DUET算法的聚类柱状图(左)和投影图(右) (b) 迭代一次聚类柱状图 (c) 迭代二次聚类柱状图 (d) 修正后聚类柱状图(左)和投影图(右) 图4.5 宽间距麦克风线阵双声源外场实测结果分析图 此外,从图4.2(d),图4.3 (e)和图4.5(d)的对比可以看到,在实际应用中,由于实际系统使用的麦克风阵元间频率响应一致性存在差异,另外两路麦克风输出信号在进行同步A/D转换前都要经过各自的信号调理电路进行放大、阻抗变化等处理,而两路 模拟信号调理电路的幅频和相频相应也均不可能完全一致。上述多种原因导致了二维柱状图聚类出来的峰在幅度因子轴上有比较明显的延展,这一问题也是未来需要进一步深入研究的。 上述实验给出了本文所提方法在实际麦克风线阵中的应用,对于三维空间声源测 [44-45]向,图4.6所示为自制的麦克风立体阵列及其/定位,通常使用麦克风立体阵形式 采集、处理和传输系统,该麦克风阵列外部三个阵元支臂可以调节。在三维声源测向/定位领域,基于到达时间差(time difference of arrival,TDOA)的定位技术是目前最常用的方法,其中计算出阵列其他传声器相对于参考传声器的时延信息是运用该方法的基础。为了进一步验证本文所述方法的性能,选取外围麦克风中的两个组成双麦克风阵列,阵元间距设置为19cm。两位同时说话的实验人员作为并发多声源,站立的位置位于远场,方位分别约为85?和93?,语音时长约为10s。 图4.6 麦克风立体阵实物图 (a) 利用传统DUET算法直接处理的二维柱状图(左)和投影图(右) (b) 经过迭代时频掩蔽处理修正后的二维柱状图(左)和投影图(右) 图4.7 宽间距麦克风立体阵双声源外场实测结果分析图 在图4.7(a)中,直接利用传统DUET算法对混合信号处理得到的结果几乎很难分辨出原始的两个声源位置,图4.7(b)所示为利用本文所述方法进行迭代时频掩蔽处理后修正的结果,从中可以明显地分辨出两声源所在的方位。通过上述的几个实验可以看出,本章提出的迭代时频掩蔽法很好地改善了在宽间距麦克风阵列中存在的相位卷绕问题。 5 基于迭代时频掩蔽的宽间距麦克风实时多声源测向 在上述的章节中,我们在DUET算法的基础上,提出了一种基于迭代时频掩蔽的宽间距麦克风阵列相位解卷绕方法,解决了传统DUET算法在宽间距麦克风阵列情况下出现的相位卷绕问题。本章将基于上述相位解卷绕思路给出一种适用于实时处理场合的宽间距麦克风阵列实时多声源测向方法。 5.1 实时多声源测向方法 5.1.1 语音端点检测 在复杂的应用环境下,语音与非语音信号为语音信号处理过程中最基本的问题。语音端点检测是指识别出一段包含语音信号的起始与结束点。采集得到的数据真正包含语音信息,从而缩短了处理数据的时间 ,这对于一个实时系统来说很重要。下面主 [46]要就基于短时能量和过零率这两种语音端点检测方法来介绍。 将语音信号进行分帧处理,每一帧记为,n=1,2,„N,n为离散语音sn()xn()i 信号时间序列,N为帧长,i表示帧数。则每一帧语音信号的短时能量为: N2 (5.1) Esn,(),ii,1n 短时能量的检测主要用在以下两个方面:1) 可以用来区分清音和浊音。清音段的语音信号能量E小,而浊音段的语音信号能量E相对较大;2) 可以用来区分无声和有声nn 的分界,声母和韵母的分界、字之间的间隙。比如对高信噪比的语音信号来说,短时能量就可以用来区分有无语音信号,因为在没有声音信号的情况下噪声能量很小,而有语音信号时,能量E很明显地会增大,这时可以用来区分语音信号的开始和结束。 n 短时平均过零率是指帧内信号经过零值的次数。通过研究表明,过零率能够反映出信号频谱的特性,过零率和信号之间有着很密切的关系,若语音信号是连续的,我们可以通过观察它的时域波形经过时间轴时来确定出过零率。若语音信号是离散的,当相邻的两个样点符号相异时,就是过零。只要统计出单位时间里样点值符号改变发 [47]生的次数,我们就能够得出平均过零率。每一帧语音信号的过零率可以定义为: N (5.2) Zsnsn,,,sgn[()sgn[(1)]],iii,1n其中: 1,()0sn,,i sgn[()]sn,,i0,()0sn,i, 判别语音段起始与终止点的问题实质上是区别噪声与语音的问题。只要通过计算输入信号时产生的短时能量就可以将噪声背景与语音段给区分出来。对信噪相对较低的系统而言,我们不能只根据能量来判断,要结合短时平均过零率来作出进一步判断。 端点检测的流程图如下所示: 开始 接收一帧数据 计算短时能量 N 短时能量>阈值, Y 计算短时过零率 N 过零率>阈值,未检测到语音 Y 检测到语音 结束 图5.1 端点检测流程图 5.1.2 实时多源测向法的具体步骤 在实时处理的过程中,为了减少数据量和运算量,减少处理时间,更好地体现实时性。我们在对每帧信号处理之前首先利用基于能量的语音端点检测法初步识别出有语音信号存在的短帧。每一帧语音信号的能量通过下式计算: M,12 (5.3) E,x(m),m,0 其中的M表示每帧的长度。若第i帧信号的能量满足,则认为该帧存在语E,P*Eimax 音信号,其中的表示在最新观测时间内的最大的帧能量,P是百分比系数,在本Emax 文中设置为0.2。通过上面的预处理,对符合上述不等式的语音帧分别处理估算出当前帧的声源方位。下面具体介绍一下实时处理步骤。 第一步:将麦克风接收到混合信号分成10~30ms的一段段短帧,并且根据式(5.3)分别计算每一帧的能量,挑选出符合上述不等式的帧信号,对符合条件的各帧分别做STFT变换,得到各帧相应的混合参数。 第二步:对其中一帧信号的混合参数对进行聚类,则当前帧中能量最强源信号的 ˆ,时延值将被首先估计出来,我们将它标记为。 ˆ,第三步:在时频域上,我们利用将属于当前能量最强声源的所有时频格均识别 ˆ,,,,标记出来。也就是说,在不存在相位卷绕问题的低频域内,即,标记出那些 ˆ,时延参数与十分相近的时频点。在存在相位卷绕问题的高频域内,即 ˆˆ,,,,,,2,,利用上面的根据式(4.1)计算出每个时频点相应的理论相位值s ˆ,然后将满足(4.2)的所有时频点标记出来。 ,,() 第四步:屏蔽属于当前帧能量最强源的所有时频格,返回第二步,通过迭代聚类,同理识别标记出属于当前帧能量次高源的所有时频格,依次不断循环这个过程直到将当前帧中所有源的相应时频格都识别出来。这样就得到了当前帧时刻的声源方位信息。 第五步:返回到第一步,进行下一帧信号的处理。 上述实时多声源测向算法的处理步骤对应流程图如图5.2所示 开始 接收一帧数据 计算该帧能量En N能量En>阈值, Y 估计当前帧能量最强声源的时延值ˆ, ˆ根据 标记出属于该源的所有时频,点 屏蔽所有标记点再次聚类Y当前帧还有声源信息, N N工作结束, Y 结束 图5.2 实时多声源测向算法流程图 5.2 仿真实验结果与分析 基于上述的算法流程,在本小节中我们通过仿真实验来测试实时测向算法的有效性。实验中采用的公共数据库下载的采样率为16kHz的两段语音,两麦克风间距设置为25cm。两路混合信号的表达式构造为: XtStStXtStSt()()(),()(10)(8),,,,,,112212 的短时能量图 (b) 声源的短时能量图(a) 声源St()St()12 (c) 基于DUET的实时测向 (d) 基于迭代时频掩蔽法的实时测向 图5.3 宽间距麦克风双声源实时测向仿真图 St()St()图5.3 (a)和图5.3 (b)分别为声源和的短时能量图,图5.3(c)采用的是传12 统的DUET算法,显然在时延参数轴零值附近存在的模糊值,图5.3 (d)采用了迭代时频掩蔽法进行处理,此时只有在预期的时延值(10,-8)附近有声源的方位信息,并且通过观察可以得知每一帧期间的声源方位信息,从图中可以看出,本文所述方法实时处理结果明显优于传统方法。 接下来我们将该实时测向法运用于退化情况,麦克风阵元的间距设定为25cm,采样频率为16kHz。阵列数据由三个相互独立的声音信号叠加而成,取帧长32ms,帧移15ms,每帧数据加汉宁窗后进行1024点的STFT。两路混合信号的表达式为: XtStStSt()()()(),,,,1123 XtStStSt()(-10)(+5)(5),,,,2123 (a) 声源s1 (上)、声源s2 (中) 和声源s3 (下)的短时能量图 (b) 基于DUET的实时测向 (c) 基于迭代时频掩蔽法的实时测向 图5.4宽间距麦克风三声源实时测向仿真图 图5.4 (a)表述了三个声源各自的短时能量图,图5.4(b)采用的是传统的DUET算法,显然在时延参数轴零值附近存在的模糊值,影响了声源真实方位的判断,图5.3 (c)采用了迭代时频掩蔽法进行处理,此时只有在预期的时延值(10,-5,5)附近有声源的方位信息。通过对比分析可以知道本章节提出的实时测向法在改善相位模糊问题的同时,也提高了算法的实时性,在每一个短帧时刻均给出当前的声源方位信息,这给今后的动态声源跟踪研究打下了良好的基础。 6 结论与展望 6.1 结论 本文研究的是基于麦克风阵列的多声源测向问题。声源测向中最关键的技术就是时延估计。传统的时延估计算法有如广义互相关法,最小均方自适应滤波法,互功率谱相位法等,然而这些方法通常在多源情况下均会失效。本文重点研究的是基于语音信号时频正交特性的时延估计算法,其中以退化分离估计技术(DUET)为代表,可以仅用两个麦克风实现多声源测向。该类算法实现简单,计算量小,然而也存在一定的局限性,即当麦克风间距加大时,在高频部分会出现相位卷绕问题,严重影响多声源测向结果的准确性。针对该问题,本文提出了一种基于迭代法时频掩蔽的宽间距麦克风阵列相位解卷绕方法,明显改善了在宽间距麦克风阵列中出现的相位卷绕引起的模糊问题,并给出了基于上述思路用于实时处理场合的多声源实时测向算法实现步骤。同时也做了较多的模拟仿真和实际环境下的外场实验验证了本文所述算法的有效性。 6.2 展望 在实际的应用中,环境的复杂性是不可避免的,如果在低信噪比环境下或者声源间能量强度差距较大时如何测出多个目标的方位这仍是我们需要解决的问题。其次本文考虑的是相对理想的环境,外场无遮蔽,无多径,声源本身是静止的,如果环境变更复杂时就需要我们进一步研究和讨论。因此,如何提高实际环境中的算法性能是我们将来需要进一步深入研究的问题。 参考文献 [1] 黄海军. 基于传声器阵列的声源定位系统的初步研究[D]. 东华大学, 2013. [2] 王伟. 基于时延估计的被动声定位研究[D]. 国防科学技术大学, 2010. [3] 严素清, 黄冰. 传声器阵列的声源定位研究[J]. 电声技术, 2005 (12): 27-30. [4] 吴俣. 基于麦克风阵列的声源定位技术的研究[D]. 成都: 电子科技大学, 2008. [5] 邵怀宗SHZ. 基于麦克风阵列的声源定位研究[J]. 云南民族大学学报 (自然科学版),2004,13(4): 256-258,267. [6] 胡郢. 麦克风阵列声源定位和语言增强技术研究[D]. 哈尔滨 工程 路基工程安全技术交底工程项目施工成本控制工程量增项单年度零星工程技术标正投影法基本原理 大学, 2008. [7] Fallon M F, Godsill S J. Acoustic source localization and tracking of a time-varying number of speakers[J]. Audio, Speech, and Language Processing, IEEE Transactions on, 2012, 20(4): 1409-1415. [8] 朱伟涛. 面向人与机器人交互的目标跟踪与识别算法研究[D]. 杭州电子科技大学, 2009. [9] 鲁佳. 基于传声器阵列的声源定位研究[D]. 天津: 天津大学, 2008.[10] 张青. 基于时延估计的声源定位算法的研究[D]. 北方工业大学, 2012. [11] 赵文峰. 基于麦克风阵列的声源定位系统研究及实现[D]. 武汉: 华中科技大学, 2009. [12] 郭俊成. 基于传声器阵列的声源定位技术研究[D]. 南京航空航天大学, 2007. [13] 严素清, 黄冰. 传声器阵列的声源定位研究[J]. 电声技术, 2005 (12): 27-30. [14] 杨祥清, 汪增福. 基于麦克风阵列的三维声源定位算法及其实现[J]. 声学技术, 2008, 27(2): 260-265. [15] 居太亮. 基于麦克风阵列的声源定位算法研究[D]. 成都: 电子科技大学, 2006. [16] 陆晓燕. 基于麦克风阵列实现声源定位[J]. 硕士论文. 大连: 大连理工大学, 2003, 3. 17] 邵怀宗SHZ. 基于麦克风阵列的声源定位研究[J]. 云南民族大学学报 (自然科学[ 版), 2004, 13(4): 256-258,267. [18] 王冬霞, 赵光, 郑家超. 麦克风阵列拓扑结构对语音增强系统性能影响的理论分析[J]. 辽宁工业大学学报: 自然科学版, 2010, 30(1): 1-4. [19] Yousefian N, Loizou P C. A dual-microphone speech enhancement algorithm based on the coherence function[J]. Audio, Speech, and Language Processing, IEEE Transactions on, 2012, 20(2): 599-609. [20] 徐燕子. 面向麦克风阵列应用的声源定位算法研究[D]. 华中科技大学, 2009. [21] Zhang W, Rao B D. A two microphone-based approach for source localization of multiple speech sources[J]. Audio, Speech, and Language Processing, IEEE Transactions on, 2010, 18(8): 1913-1928. [22] 关晓彬. 基于空间域的麦克风阵列近场声源定位与增强研究[D]. 西南交通大学, 2012. [23] 汪健. 基于空域滤波的语音分离研究[D]. 西南交通大学, 2011. [24] 王震. 基于互功率谱相位时延估计的声源定位系统研究[D]. 天津大学, 2010. [25] 邓艳容, 景新幸, 任华娟. 基于麦克风阵列的声源定位研究[J]. 电子技术应用, 2010 (2): 87-90. [26] 吴盛. 基于麦克风阵列的多声源测向[D]. 南京理工大学, 2009. [27] Knapp C, Carter G C. The generalized correlation method for estimation of time delay[J]. Acoustics, Speech and Signal Processing, IEEE Transactions on, 1976, 24(4): 320-327. [28] Chen J, Benesty J, Huang Y. Performance of GCC-and AMDF-based time-delay estimation in practical reverberant environments[J]. EURASIP Journal on Applied Signal Processing, 2005, 2005: 25-36. [29] 何蒙, 祖丽楠, 孙昊, 等. 基于 LMS 的广义互相关时延估计[J]. 电声技术, 2010 (9): 46-48. [30] Reed F, Feintuch P L, Bershad N J. Time delay estimation using the LMS adaptive filter--static behavior[J]. Acoustics, Speech and Signal Processing, IEEE Transactions on, 1981, 29(3): 561-571. [31] Ayllón D, Gil-Pita R, Jarabo-Amores P, et al. Speech source separation using a generalized mean shift algorithm[J]. Signal Processing, 2012, 92(9): 2248-2252. [32] Swartling M, Grbic N, Claesson I. Direction of arrival estimation for multiple speakers using time-frequency orthogonal signal separation[C]//Acoustics, Speech and Signal Processing, 2006. ICASSP 2006 Proceedings. 2006 IEEE International Conference on. IEEE, 2006, 4: IV-IV. [33] Araki S, Makino S, Blin A, et al. Underdetermined blind separation for speech in real environments with sparseness and ICA[C]//Acoustics, Speech, and Signal Processing, 2004. Proceedings.(ICASSP'04). IEEE International Conference on. IEEE, 2004, 3: iii-881-4 vol. 3. [34] Rickard S. The DUET blind source separation algorithm[M]//Blind Speech Separation. Springer Netherlands, 2007: 217-241. [35] Microphone arrays: signal processing techniques and applications[M]. Springer, 2001. [36] 甘海波. 语音识别系统中声学层模型的研究[D]. 哈尔滨工业大学, 2008. [37] 陈栋. 语音信号前端处理技术研究 [D][D]. 西北工业大学, 2005. [38] Yilmaz O, Rickard S. Blind separation of speech mixtures via time-frequency masking[J]. Signal Processing, IEEE transactions on, 2004, 52(7): 1830-1847. [39] Arberet S, Gribonval R, Bimbot F. A robust method to count and locate audio sources in a multichannel underdetermined mixture[J]. Signal Processing, IEEE Transactions on, 2010, 58(1): 121-133. [40] Cobos M, Lopez J J, Martinez D. Two-microphone multi-speaker localization based on a Laplacian Mixture Model[J]. Digital Signal Processing, 2011, 21(1): 66-76. [41] Scheuing J, Yang B. Disambiguation of TDOA estimation for multiple sources in reverberant environments[J]. Audio, Speech, and Language Processing, IEEE Transactions on, 2008, 16(8): 1479-1489. [42] Wang Y, Y?lmaz Ö, Zhou Z. Phase aliasing correction for robust blind source separation using DUET[J]. Applied and Computational Harmonic Analysis, 2013, 35(2): 341-349. [43] Ballal T, Bleakley C J. Phase-difference ambiguity resolution for a single-frequency signal in the near-field using a receiver triplet[J]. Signal Processing, IEEE Transactions on, 2010, 58(11): 5920-5926. [44] 董明荣, 许学忠, 张彤, 等. 空中炸点三基阵声学定位技术研究[J]. 兵工学报, 2010 (3): 343-349. [45] 雷鸣, 陈绍钦, 雷志勇. 近地炸点声定位算法研究[J]. 计算机测量与控制, 2012, 20(003): 734-736. [46] 李晋. 语音信号端点检测算法研究[J]. 长沙: 湖南师范大学, 2006. [47] 刘雅琴, 陈媛媛. 基于信息熵的语音端点检测[J]. 计算机时代, 2009 (3). 附录 攻读硕士学位期间发表的论文情况: 1(Tianyi Gu, Zhao Zhao, Yaqi Wu, Zhiyong Xu, Jingyi Wang. “A real-time multiple acoustic sources localization method using widely spaced microphone array”. Applied Mechanics and Materials (ISSN:1660-9336). 攻读硕士学位期间专利申请情况: 1(许志勇,赵兆,沈曙明,吴亚琦,钱昆,顾添翼,房玉琢 一种适用于传感网络的智能被动声探测节点装置 申请号:201310344312.X
本文档为【[整理]基于麦克风阵列的多声源测向方法研究】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_153723
暂无简介~
格式:doc
大小:462KB
软件:Word
页数:65
分类:企业经营
上传时间:2017-12-26
浏览量:65