基于声纹识别技术的麦克风阵列说话人实时定位

基于声纹识别技术的麦克风阵列说话人实时定位基于声纹识别技术的麦克风阵列说话人实时定位∗ 张南+, 张晓洲, 史元春清华大学计算机科学与技术系,北京市 100084 摘要: 本文提出了一个基于声纹识别技术的麦克风阵列说话人实时定位系统，称为 SR-SLOMA。该系统将实时声纹识别技术和麦克风阵列的说话人定向技术相结合，当麦克风阵列给出的说话人所在区域内存在多人时，综合声纹识别的结果，按照判定策略，判断出当前实际说话人。该技术有效解决了普通基于麦克风阵列的说话人实时定位系统会产生判断“歧义”的问题。系统还采用话音检测...

基于声纹识别技术的麦克风阵列说话人实时定位∗ 张南+, 张晓洲, 史元春清华大学计算机科学与技术系,北京市 100084 摘要: 本文提出了一个基于声纹识别技术的麦克风阵列说话人实时定位系统，称为 SR-SLOMA。该系统将实时声纹识别技术和麦克风阵列的说话人定向技术相结合，当麦克风阵列给出的说话人所在区域内存在多人时，综合声纹识别的结果，按照判定策略，判断出当前实际说话人。该技术有效解决了普通基于麦克风阵列的说话人实时定位系统会产生判断“歧义”的问题。系统还采用话音检测技术滤除了与话音特征差别很大的背景音，提高了判断准确度。实验证明，SR-SLOMA 与普通基于麦克风阵列的说话人实时定位系统相比，抗环境噪音能力强，定位准确度高。关键词: 声纹识别; 麦克风阵列; 波束成形技术 1.引言基于麦克风阵列的说话人实时定位（Speaker Localization on Microphone Array, SLOMA）系统广泛应用于会议，多媒体课堂等智能空间场景中[1],[2]。它不但免去了传统的传递话筒或佩戴无线麦克风的繁琐过程，而且便于实现对采集到的音视频按说话人不同进行过程记录[3],[4]。从而使空间变得更加人性化、智能化。麦克风阵列由多个按特定方式排列起来的麦克风组成。它利用波束成形技术（Beamforming），通过计算声音到达各路麦克风的延迟，判断声源方向，实现定向采音，并对该特定方向的音频信号进行增强。然而，由于会议、课堂等现实场景存在背景音，如桌椅挪动声音，敲键盘声音等，会使麦克风阵列的判断产生偏差。因此，实际场景中麦克风阵列给出的是说话人所在的角度范围。当该范围内存在有多个参与者时，普通 SLOMA 系统会产生判断“歧义”，无法准确判断出实际说话人。为此，我们将实时声纹识别技术集成到SLOMA系统中，在麦克风阵列探测出的说话人范围内有多个参与者时，综合实时声纹识别的结果，按设计的判定策略，给出当前说话人的判断。这个基于声纹识别技术的麦克风阵列说话人实时定位系统（Speaker Recognition-based Speaker Localization On Microphone Array），简称为 SR-SLOMA。 * 本项目由新世纪优秀人才支持计划资助，NCET-04-0079。 + 联系作者 Email: z-n04@mails.tsinghua.edu.cn 2．SR-SLOMA 关键技术 SR-SLOMA 系统旨在解决 SLOMA 系统判断“歧义”的问题。在系统中有两个关键性技术：一是话音检测技术，该技术可滤去部分的非话音数据，减小了误判可能性；二是 SR-SLOMA 系统的核心――判定策略的设计。 2．1 话音检测技术如何从采集到的音频数据中判断出非话音部分，从而使 SR-SLOMA 系统仅对话音数据进行说话人的判断，是话音检测技术的主要目的。SR-SLOMA 系统中话音检测技术的核心是短时能量的判断。短时能量计算式为： ( ) ( )n m E x m w n m ∞ =−∞ = −⎡ ⎤⎣ ⎦∑ 公式 (1) 其中w 表示短时窗函数，在 SR-SLOMA 系统中使用的是矩形窗。由于话音的短时能量与一些环境背景音的短时能量值不同，据此可以滤除部分非话音数据。实验表明，该技术使 SR-SLOMA 系统减少了很多不必要的判断，从而提高了判断准确度。 2．2 SR-SLOMA 判定策略定位系统常采用视觉跟踪技术[5]或 Radio-Frequency（RF）技术[6]给出参与者的位置信息。SR-SLOMA 利用位置信息，综合麦克风阵列模块和实时声纹识别模块两者的结果，依判定策略，指出当前说话人。本过程含有两个策略的设计问题：一是实时声纹识别模块进行说话人模型训练的时机；二是如何权衡两模块结果，给出准确判断。 2．2．1 说话人模型的训练时机通常的声纹识别系统，特定模型训练数据的一致性是可以保证的。因为训练过程和识别过程是完全分离的，在训练中可以保证特定模型的训练数据就是来自特定人。但在 SR-SLOMA 系统的实时声纹识别模块中，没有关于训练数据归属的先验知识，因此需要其他措施来保证数据一致性。SR-SLOMA 采取的策略是：当系统检测到有人开始说话，且没有该说话人模型时，若定向角度范围内有唯一的参与者，即认为对当前话音归属的判断是“无歧义”的，实时声纹识别模块开始该说话人模型的训练；若定向角度范围内有多个参与者，此时并不能确定当前话音的归属，系统不进行说话人模型训练，如果在这种情况下进行模型训练，说话人与训练出的模型有可能匹配错误。 2．2．2 SR-SLOMA 的判定策略如何权衡麦克风阵列和实时声纹识别两模块的结果，给出准确判断。这个判定策略的设计是 SR-SLOMA 系统的核心。我们在以麦克风阵列为原点的平面极坐标中进行讨论。假设，智能空间中参与者数目为 N ，位置坐标为 ( ), , 0,1, , 1i ir i Nθ = −" 。麦克风阵列给出的说话人偏角为α （单位： rad ）。SR-SLOMA 系统中一些关键参数定义如下： z 说话人所在的可能区域D：定义 ( )0.1 radα ± 为说话人所在的可能区域。 z 区域D内参与者的集合M ： M N≤ 。 z 角度吻合度 ρ ：参与者 i的角度 iθ 与α 的吻合程度。 0.1 0.1 i i θ αρ − −= ， [ ]0,1ρ ∈ 。 1iρ = ，即参与者 i的角度与α 完全吻合。 z 实时声纹识别结果ε ： iε 表示了当前话音是参与者 i的概率。 0iε = ，即识别模块中没有参与者 i的说话人模型。 z 话音判定为参与者 i 的可能性 ip ： 1 2w wi i ip ρ ε= ⋅ ，其中 1 2, 1, 0.5i M w w∈ = = 。 1w 和 2w 分别为参数 ,ρ ε 在决策中的权重。 SR-SLOMA 系统具体的判定策略如表 1 所示。表 1：SR-SLOMA 系统具体判定策略 M 中元素数集合 M 中元素的 ,ρ ε 值 SR-SLOMA 系统动作/判定策略 , 0ii M ε∈ = 训练参与者 i的说话人模型。判定当前说话人为参与者 i。 1M = , 0ii M ε∈ > 判定当前说话人为参与者 i。 , 0ii M ε∀ ∈ > 判定当前说话人为参与者 i ，( ){ }max ,i ii p p i M= ∈ 。 , 0.5jj M ε∃ ∈ > 判定当前说话人为参与者 j ，( ){ }max ,j jj p p j M= ∈ 。 1M > , 0ii M ε∃ ∈ ＝ , 0.5ii M ε∀ ∈ < 判定当前说话人为参与者 i ，( ){ }max ,i ii i Mρ ρ= ∈ 。实验表明，这个判定策略有效的解决了判断“歧义”问题，提高了判断准确度。 3．实验与结果分析我们实现了一个 SR-SLOMA 系统原型。应用场景为一个 5m×4m×2m 的会议室，有三名与会者 A、B、C。墙壁均是吸音的，这样可以防止回声干扰导致的误判。麦克风阵列采用 Intel Host-Based Microphone Array，安装在会议室前方墙壁上，该麦克风阵列由 6 个麦克风并排组成，采样率为 48kHz。实时声纹识别模块采用的是清华大学计算机系媒体所自行开发的系统，该系统利用实时采集到的特定说话人的 10 秒语音，便可训练出该说话人模型；在识别阶段，可给出当前采集进来的语音对系统内所有已注册说话人模型的识别概率序列。SR-SLOMA 系统的任务是准确判断出当前说话人。图 2 说话人位置变化较大的 10 分钟的实际情况表 2：两系统的判断结果实际情况时刻(分) 发言者 SLOMA 系统结果 SR-SLOMA 系统结果 0.0 无无无 0.5 A A A 1.5 B B B 4.0 无 C 无 4.5 A C A 6.0 C C C 7.0 无 C C 7.5 C C C 9.0 B B B 判断正确率 66.7% 88.9% 我们截取说话人位置变化比较大的 10 分钟，如图 2 所示，来比较 SR-SLOMA 系统与SLOMA系统给出的结果。图中的横轴表示时间，纵轴表示三个与会者相对于麦克风阵列的实际偏角 iθ ，由定位系统给出。红色表示该与会者在发言。蓝色表示麦克风阵列判断出的发言者所在的可能区域D。由图 2 可知，（0~2）分和（7.5~10）分，三个与会者相对麦克风阵列的偏角比较分散，两系统均很容易给出准确判断；（4～6）分，三个与会者基本处在同一方向上，此时，仅基于麦克风阵列的SLOMA系统会产生判断 “歧义”，很难做出准确判断。两系统的判断结果如表 2 所示。分析表 2 可得，由于 SLOMA 系统没有采用话音检测技术，所有采集进来的音频均被认为是话音，环境中的声音很容易对系统产生影响，导致误判，如在（4.0~4.5）分和（7.0~7.5）分内都没有人在发言，SLOMA 系统给出的判断都是不正确的；而 SR-SLOMA 系统由于采用了话音检测技术，对采集进来的音频进行短时能量判断，滤除了与话音短时能量差别很大的环境音，减小了非话音对判断结果的影响。 SR-SLOMA 系统的核心就是判定策略的设计。该策略综合考虑了麦克风阵列和实时声纹识别模块两者的结果，在区域D内包含多个参与者（即 1M > ）的情况下，同样可以给出准确的判断，有效解决了 SLOMA 系统存在的判断“歧义”问题。如（4.5～ 6.0）分，与会者 A 在发言，D中包含有 3 个与会者，（6.0～7.0）分，C 在发言，D中包含有 2 个与会者。SLOMA系统采取从D中随机选定一个的策略，误判概率很高；而 SR-SLOMA 系统则利用实时声纹识别技术训练创建说话人模型，在D中包含多人时，对当前声音用D中参与者的模型一一进行识别并给出识别概率，再综合麦克风阵列模块的角度吻合度，依照判定策略，给出当前说话人的判断。在本实验中，SR-SLOMA 系统对于 1M > 的情况都做出了正确判断。 4．结语说话人实时定位系统是智能空间中不可或缺的一部分。本文提出的 SR-SLOMA 系统，将实时声纹识别技术和麦克风阵列定向采音技术相结合，依照所设计的判定策略，可准确的实现说话人实时定位。该系统中还采用了话音检测技术，一定程度上减小了环境噪音的影响，降低了误判概率。麦克风阵列虽可实现定向采音，但定向的环境噪音还是会被采集进来，采音质量与传统麦克风相比，信噪比不高，这会影响声纹识别模块创建的说话人模型质量，同时也不利于进行说话人的识别。因此对采集进来的音频做进一步的除噪滤波处理还是很有必要的，这也是我们未来将要继续做的工作。同时选择一个 Beamforming 采音性能好、作用范围广的麦克风阵列也是提高 SR-SLOMA 系统判定准确率的关键。参考文献 [1] Carlos Busso, Sergi Hernanz, Chi-Wei Chu, Soon-il Kwon, Sung Lee, Panayiotis G. Georgiou, Isaac Cohen, Shrikanth Narayanan. “Smart Room: Participant and Speaker Localization and Identification”. In ICASSP 2005, Philadelphia, PA, USA, March 2005. [2] Shingo Tokunaga, Yoshimichi Ito, Naoko Nitta and Noboru Babaguchi. “Meeting Recording System via Multimodal Sensing”. In JSAI 2005 Workshop on Conversational Informatics, Kitakyushu, Japan, June 2005. [3] Gregory D. Abowd. ”Classroom 2000: An Experiment with the Instrument of a Living Educational Environment”. IBM System Journal, Special issue on pervasive Computing, Volume 38, Number 4, pp.508-530, October 1999. [4] B. Erol, D. Lee and J. J. Hull, “Multimodal Summarization of Meeting Recorder”. In Proceedings of the IEEE International Conference on Multimedia and Expo (ICME 2003), Baltimore, MD, Jul. 2003. [5] A. Behrad, A. Shahrokni, S. A. Motamedi and K. Madani. ”A Robust Vision-based Moving Target Detection and Tracking System”. In proceedings of Image and Vision Computing conference (IVCNZ 2001), New Zealand, November 2001. [6] P. Bahl and V. N. Padmanabhan. ”RADAR: An In-Building RF-based User Location and Tracking System”. In Proceedings of IEEE INFOCOM 2000, volume 2, pp.775-784, Tel-Aviv, Israel, March 2000. Speaker Recognition-based Speaker Localization on Microphone Array ZHANG Nan+, ZHANG Xiao-Zhou, SHI Yuan-Chun Department of Computer Science and Technology, Tsinghua University, Beijing 100084, China + Corresponding author: Phn: +86-10-62797003-806, E-mail: z-n04@mails.tsinghua.edu.cn. Key words: Speaker recognition; Microphone array; Beamforming. Abstract: Speaker localization is required by many smart space scenarios, such as smart classroom, net-meeting and so on, to make the space more intelligent. Microphone array is a directional audio sampling device, which can judge the direction of speaker with the beamforming technique; so it is often used to do speaker localization in the smart space. However, the traditional speaker localization on microphone array system cannot give the precise judgment when there is more than one person in the direction of speaker, which is called “different meanings” problem. In order to solve this problem and achieve more accurate speaker localization, a speaker recognition-based speaker localization on microphone array system was designed (called SR-SLOMA). SR-SLOMA system combines the real-time speaker recognition and speaker localization on microphone array techniques together, it draws the judgment according to a strategy synthetically considering the two results given by the real-time speaker recognition module and the microphone array module; so the judgment SR-SLOMA system given is much more precise. It can efficiently solve the “different meanings” problem that exists in the traditional SLOMA system. Furthermore, SR-SLOMA system involves a speech detection technique for the preprocessing; it can filter most environment background noise whose feature is greatly different from human speech. Making use of this speech detection technique, SR-SLOMA system is less influenced by the environment background noise and has a low miscarriage of justice rate. We have implemented a prototype of SR-SLOMA system. Preliminary experiments were carried out to test its performance. The results show that compared with the traditional SLOMA system, SR-SLOMA system is much more robust, and can obtain much higher accuracy in the speaker localization.

                    本文档为【基于声纹识别技术的麦克风阵列说话人实时定位】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

基于声纹识别技术的麦克风阵列说话人实时定位

你可能还喜欢