关于时域卷积混合语音信号盲分离方法及其应用的研究

关于时域卷积混合语音信号盲分离方法及其应用的研究关于时域卷积混合语音信号盲分离方法及其应用的研究关于时域卷积混合语音信号盲分离方法及其应用的研究复旦大学硕士学位论文关于时域卷积混合语音信号盲分离方法及其应用的研究姓名:鲁晓丹申请学位级别:硕士专业:电路与系统指导教师:张立明 20070521论文独创性声明本论文是我个人在导师指导下进行的研究作及取得的研究成果。论文中除了特别加以标注和致谢的地方外,不包含其他人或其它机构已经发表或撰写过的研究成果。其他同志对本研究的启发和所做的贡献均已在论文中作了明确的声明并 ...

关于时域卷积混合语音信号盲分离方法及其应用的研究关于时域卷积混合语音信号盲分离方法及其应用的研究复旦大学硕士学位论文关于时域卷积混合语音信号盲分离方法及其应用的研究姓名:鲁晓丹申请学位级别:硕士专业:电路与系统指导教师:张立明 20070521论文独创性声明本论文是我个人在导师指导下进行的研究作及取得的研究成果。论文中除了特别加以标注和致谢的地方外,不包含其他人或其它机构已经发表或撰写过的研究成果。其他同志对本研究的启发和所做的贡献均已在论文中作了明确的声明并表示了谢意。作者签名:盘蚴日期:型. 论文使用授权声明本人完全了解复巨大学有关保留、使用学位论文的规定,即:学校有权保留送交论文的复印件,允许沦文被查阅和借阅;学校可以公布论文的全部或部分内容,可以采用影印、缩印或其它复制手段保存论文。保密的论文在解密后遵守此规定。导师签名期:丝::? 作者签名:.童幽摘要摘要盲信号分离技术是近年来信号处理领域的一个研究热点,由于其能够在对原始信号和混合系统的先验知识都比较少的情况下,从观测到的混合信号中恢复出原始信号, 因此在无线通信、医学信号处理、图像增强和语音分离方面有着广泛的应用。语音信号的盲分离问题是盲信号分离技术当中非常重要,同时也是难度很大的一个部分。如何从一个实际的未知环境中所观测到的混合语音信号里提取出说话人清晰的语音是一个典型的盲信号分离问题。在研究的早期忽略传输信道卷积效应的基于瞬时混合模型的语音信号盲分离技术已经相对成熟。但在实际的应用当中,环境中的传播延迟和反射效应以及语音信号自身的统计特性使得这个闯题变得更加复杂。例如信道中的反射引入的卷积效应,语音信号的时断时续以及源信号数目随时间的变化,语音信号的不平稳特性和时间相关特性给传统算法带来的困难等等,这些都是我们在算法研究工作当中遇到的难点和挑战。针对以上的问题,本文基于卷积混合语音信号的时域盲分离方法在以下几个方面进行了研究和探索。为了解决传统互信息算法中由于语音信号的非平稳和时间相关等特殊的统计本文结合分块处理方法和带遗忘因子的不完特性和数学模型而产生的问题, 备约束条件,提出一种改进的基于自然梯度法的在线卷积混合盲分离方法。萄针对基于二阶统计量的时域盲分离方法在迭代过程中的矩阵奇异问题进行改进,同时利用语音信号的模型和二阶统计量信息得到卷积混合深度的盲估计方法。传统的基于理论的盲分离方法往往需要满足源信号数目不大于观测信号数目的前提条件,但是在实际的应用当中,这个条件往往显得过于苛刻。基于方法提供了一条新的解决思语音信号时频图稀疏性假设的路,但是同时也存在二值带来的能量损失等问题。本文在这一类方法的基础上,结合在语音信号的模型,并利用时频图谱插值补偿的方法,提出改进后的时频域结合的分离方法。完成了智能发育机器人系统一“复旦号”的工程化工作,以及寻求语音信号盲分离方法在智能机器人系统中语音前端处理模块中潜在的应用。关键字:卷积混合信号的盲分离、自然梯度,互信息、二阶统计量、时频图书分类号:. , , . .但. . : . ’, . . : ,. . , . 皿 .., . 迥。.一“. . , : 第一章绪论第一章绪论 .研究背景及研究意义近几年来,随着通信,计算机,机器智能等领域相关技术的飞速发展,在信号处理领域里兴起了一个新的研究方舟?盲信号处理与分离技术,它在传统信号处理技术的基础上结合了人工神经网络、统计学和信息论的相关思想、并且为很多传统信号处理方法不能解决的实际问题提供了许多新的思路,所以越来越多的受到科研学者们的关注。比如最典型的一个盲分离问题就是经典的“鸡尾酒会” 问题:在一个聚集了很多宾客的宴会大厅里,我们每一个人都会听到来自许多不同地方的声音,比如说话声,歌声,音乐声等等,我们人类具有在这种嘈杂的环境下轻松捕捉到所关心和感兴趣的语音的能力,也就是所谓的信号分离与增强能力,然而现有的仪器设备却很难做到这一点。那么这一切人类是如何做到的,或者说我们能不能利用现有的信号处理方法来模拟这种能力呢如何在没有源信号或通道的先验知识的情况下,对多个信号源环境下所采集到的混叠信号进行分离是盲信号分离研究的一个主要目标。一旦能够解决这个问题,我们对其进行推广,把它应用到各个领域当中,将产生巨大的作用和影响。比如:通信领域中的信道均衡问题,脑科学中的脑电波分析 ,以及地震,军事等社会和生活的方方面面,尤其是在语音处理方面,如何使计算机具有和人类一样的听觉能力,是机器智能领域研究者们的梦想。语音识别技术的产生使得我们在实现智能听觉的道路上迈进了一大步,使得计算机能辨识我们人类的语言,人机交互从此不再枯燥乏味而显得更加人性化和生动。但是到目前为止,该项技术还处于初步的研究阶段,在识别率和效率上还有很大的上升空间,特别是对语音环境的限制使得这一技术的推广产生了很大的局限性。如何在噪声环境下以及众多说话人的情形下仍然能够实现高效率的语音识别,以此提高现有识别算法的鲁棒性、实用性和适应能力,换句话说,能不能把语音信号的盲分离技术应用到语音识别的前端预处理当中去,使原本相互混合的语音信号相互分开以满足现有识别算法的前提条件,从这种意义上来讲该课题的研究是具有很大的现实意义的。同时,机器人研究,高质量的语音通信,助听器和远程语音会议系统都会得益于此项技术的发展和推广。因此,随着实际应用中日益增长的需求,信号盲分离技术特别是语音信号的盲分离技术逐渐成为了信号处理,信息论和人工神经网络领域的研究热点和难点。第一章绪论 .盲信号分离问题的物理和数学模型盲信号分离问题研究的主要内容从根本上来说就是希望能够寻求到一种方法,可以实现从观测到的混合信号中恢复出所需的原始源信号的目的。和传统信号处理方法最大的不同在于,这一类问题所要突出的是一个“盲”字一这里包含两层含意:一是所求的源信号是未知的;二是中间的混合过程也是未知的。在这个前提下对信号所进行的处理就成为盲信号处理。但是这里的未知也并不意味着绝对的未知,一些对于混合模型的必要假设和源信号的一些统计量相关的先验知识,在盲信号分离过程中也是十分重要且必要的。盲信号分离问题当中最经典也是最具有代表性的是“鸡尾酒会”问题,不失一般性,我们可以用下面的图?来概括说明这一类问题的物理模型: 在图中,外围的方框用来模拟一个房间也可以抽象表示通信中的传输信道或者混合过程,代表源信号可以是声音信号,通信信号,生物医学信号或者图像信号,代表我们观测到的混合信号。根据常识我们不难得出这样的结论:当,。这些信号同时存在且不为时,我们在,..当中所得到的任何一个观测信号都将是所有这些源信号混合的产物。同时,在实际情况当中, 我们对于房间的环境传输信道常常无法获得足够的了解。在这种前提下,我们仅仅通过所得到的混合观测信号如何重构出所需要的源信号将是本文的研究重点。而接下来,我们将着重介绍在现有的大多数盲分离方法中针对该问题的物理情景所构造的数学模型。第一章绪论 ?一圈一圈? 竺一圈一圈竺三图盲信号处理系统框图盲信号分离技术一般是构建在如图所示的系统框架之下,假定我们要求的原始信号经过一个混合系统的作用,产生我们所得到的混合观测信号,我们通过一定的方法构造一个合理的解混系统对观测信号进行分离,尽可能使得解混系统输出的恢复信号获得较好的重构效果。在这里如何对混合系统进行合理的数学建模,将直接影响到盲分离方法的研究方向和分离效果。根据混合方式的不同,混合系统大致可以分为两类:即线性混合系统和非线性混合系统。非线性混合系统的盲信号分离问题相对比较复杂一些,而且在现实环境中的应用范围也非常狭窄,因此,在现有的大多数方法中, 为了方便数学分析,同时也不失一般性,常常将信道也就是混合系统近似作为线性混合模型来处理。而根据模型的复杂程度又可以进一步分为瞬时混合模型和卷积混合模型两种。 ..瞬时混合盲分离问题图.盲瞬时混合和解混框图在信号盲分离技术发展的早期,源信号的混合模型常常被设定为瞬时的,也就是在分析问题的过程当中,不考虑混合信道的延迟和卷积效应。在这个假设前提下构建的数学模型相对比较简单: ?,通道的观测假设通道的源信号向量为辩一,是?% 信号为雄’恐?‘ ?其中?卅,不考虑信号的延迟和滤波效应,和之间的关系用以下线性矩阵交换来表示: 其中为维的混合矩阵,?一协%?%矿?,是通道的第一章绪论混合信道噪声。一般情况下为方便问题的分析常常忽略信道噪声蚤『,则混合过程可以简化为: . 瞬时混合系统是线性系统中最基本的一种,其混合函数常常为一简单的混合矩阵形式,此系统输出的观测信号琊在时刻也仅仅依赖于源信号在时刻上的数值。而我们所要解决的问题就是在源信号和混合矩阵均未知的情况下,仅仅通过得到的混合观测信号来求取对源信号的最优估计。在现有的瞬时混合盲分离方法中最常采用的是基于理论的方法,其解混系统模型是如图.所示,通过构造一个×维的解混矩阵。使得对混合观测信号所进行的线性变换: “一.】【其,眈?%『?,是通道的恢复信号,可以成为源信号的一个最优估计。我们把混合系统和解混系统的线性变换关系合并起来不难得到以下的关系: . 一一其中维的变换矩阵被称为混合.解混复合矩阵。通过对混合系统的数学分析,我们不难得出这样的结论:针对于一组相同的混合观测信号【,可能同时存在无数种不同的混合矩阵和源信号的组合都满足混合系统的变换公式,也就是说盲分离问题其实是一个多解问题。利用恢复信号本身的独立性来求得的方法为独立元的方法,在中为了使得该问题有意义并且可解,我们必须对问题的模型做一些基本的假设: 维的混合矩阵为列满秩,即. 源信号矢量四是零均值的平稳随机矢量过程,各个分量之间相互统计独立,并且刚的分量中,服从高斯分布的分量不超过一个。观测信号的个数要大于等于源信号。盲信号分离问题的特殊性使得我们必须仅仅通过非常少的信息来获取最大的信息量。在忽略噪声的前提下,针对于混合模型的矩阵线性变换, 的假设保证了变换是可逆的。同时由于高斯随机变量的线性混合仍然是高斯分布的,而高斯分布是完全对称的,不包含混合矩阵的列方向的任何信息,当源信号中服从高斯分布的分量多于一个时,算法很难求解,因此假设对此做出了限制。假设是希望从高阶统计量得到其解,如果观测信第一章绪论号的个数比源信号小是不足以解出未知量的. 在问题的求解过程当中我们知道,的最优解就是求得的解混矩阵可以满足使得混合.解混复合矩阵,其中为单位阵。此时解混系统所得到的输出信号是原始信号的精确恢复。但是,在实际的盲分离过程当中,正如前文所述,我们无法得到精确恢复源信号所需的足够的信息,在大多数的情况下,往往是利用各个分量之间相互统计独立的假设条件来进行分离, 此时针对任何的矩阵和是一个置换矩阵,它的每一行和每一列都有且只有一个单位值,则是一个对角矩阵,它的对角元素为非零值都将是问题的解,因此要想精确恢复出原始信号是很难的,这也就是信号盲分离技术中所谓的幅度不确定性和顺序不确定性。不过在大多数的应用当中,信号的信息主要集中在信号的波形当中,因此其排列顺序和幅值所带来的不确定性并没有对我们的实际应用产生太大的影响。 ..卷积混合盲分离问题和我们接下来将要介绍的卷积混合盲分离问题相比,前一小节提到的瞬时混合盲分离问题相对显得比较简单,也是到目前为止各国学者们研究得比较多的问题,很多基于瞬时混合模型的盲分离算法已经被人们提出来并得到了丰富和发展。可是尽管如此,我们也不得不承认,这些现有的基于瞬时混合模型的方法一旦应用到实际当中,往往很难得到令人满意的结果。我们还是回到前文提到的“鸡尾酒会”问题,我们知道声音在空气中的传播速度是有限的,与此同时一旦传播当中遇到障碍物时也会发生反射和衍射的效应,这是最基本的物理原理。那么也就是说,在语音信号的混合过程中,麦克风接收器捕捉到的语音信号除了有从信号源直接到达的以外,还有一部分是经过墙面、地面等物体反射后到达的。这也可以称作是多径效应,这种现象在通信当中也是屡见不鲜。那么在这种情况下, 麦克风接收器所得到的语音混合信号和源信号之间的变换关系显然已经不符合前面介绍的瞬时混合模型了,所以原来那些方法不能达到合理的分离效果也就并不奇怪了,语音信号的这种卷积混合比起通信中的问题更为复杂,这是因为同一路的语音在时间上不是独立的。那么为了使得信号盲分离技术取得更广的应用范围和前景,学者们越来越多地把研究的重心转移到更加符合实际的卷积混合模型当中来。但是卷积混合的盲分离问题比瞬时混合的盲分离从各个方面都要困难得多。可以想见,即使是在非 “盲’的状况下,即在混合信号和混合通道参数都是己知的情况下要恢复出原始第一章绪论信号也不是一个十分简单的问题,更何况在“盲”的情况下。因此本文的工作主要围绕着卷积混合模型下的信号盲分离工作进行。下面介绍卷积混合盲分离的数学模型: 儿 ??啊, \一号厂 ? \耐 ?文工和朦胞 /毒.’? ? 一一 : 坚 ??一, 獾合系统? 謦混系缝? 图盲卷积混合和解混框图在不考虑噪声的情况下,设通道的源信号向量为酏屯?%?, 通道的观测信号为恐?‘? ?其中玎?。考虑到信号的延迟和滤波效应,和础之间的关系用以下的因果卷积混合系统模型来表示: 旦罗,?,。局‘ 其中。为×维的混合.冲激响应阵,为卷积延迟深度。我们研究的问题是: 若已知观测信号?,在未知,,和的情况下,仅仅通过源信号之间的独立性或者其他一些统计分布特性假设来获得对源信号的估计。接着, 通过对卷积混合模型的数学变换公式进行分析我们可以得到:若,则每一个时刻的观测信号只与同一时刻的源信号有关,此时问题就退化为传统的瞬时混合模型下的盲分离问题;若,则每一个时刻的观测信号将与一段时间内的源信号都有关系,也就反映了信号在信道传播过程中的延迟和反射效应。现有的卷积混合盲分离算法大部分利用对源信号的独立性假设, 利用一组关于的滤波器或者前馈网络模型对观测信号进行分离,通过构造关于解混矩阵,的代价函数,将源信号的恢复问题转化为关于解混矩阵 ,的代价函数优化问题。为了简单起见,考虑源和接受器的数目相等其盲分离系统的网络数学模型如下: 一罗,?, 硒其中为解混系统的输出信号,,为×维的滤波器参数矩阵,为解混滤波器长度。用变换域的表示方法可以简单写成:第一章绪论工 , . ,?:一’ 和瞬时混合模型同理,在卷积混合模型莳钕设条件下,恢复信号的幅度,延迟和次序与源信号之间也有着不确定性。 .国内外研究现状盲分离问题的研究可以追溯到八十年代中后期,和在年提出了盲分离问题并作出了开创性工作。他们提出一种基于赫布学习规则的并行人工神经网络模型【】,在假设源信号之间独立的情况下,利用这种网络模型对混合信号进行盲分离,这种算法后来被称为算法.但是当时人工神经网络的研究热点大多集中在其它的方面,所以这一网络模型并未受到广泛的关注,但是却开辟了一个全新的研究领域,随后盲信号分离问题的研究和探讨逐渐成为信号处理领域的主要研究方向之一。年等人提出了盲信号分离问题的可辨识性问题【】,同时引进了三阶统计量,开创了高阶统计量在盲信号分离问题中应用的先河。到了年和.等三位法国科学家在权威杂志上先后发表了三篇关于盲信号分离的经典文章,标志着盲信号处理问题的研究取得了重大进展。年, .用基于高阶累积量张量的代数方法推导出了“联合近似特征矩阵对角化提出了独立分量分析的基 ,算法【】.年本概念【】,并在这一框架下阐述了盲源分离问题,利用来衡量源信号的统计独立性。该方法成为了日后研究盲分离的主流,充分的利用了信号的高阶统计信息。找到了一种可以分离非平稳信号的瞬时盲分离年, 算法吲,将盲分离算法研究工作向实际应用推进了一大步。因为在实际环境中多数信号是非平稳的。年后盲信号分离领域的许多人员将所有的盲分离问题研究工作伸向了两个方向,第一,由于当前的几乎所有的盲分离算法对于非平稳信号的分离效果都不是很理想,为了解决这个问题人们开始将时频分布分析法引入盲分离工作。但是由于模型表示及算法计算过于复杂,再加上理论还不够完善,因而实际分离的结果并不是理想的那样:另外,为了加快算法的收敛速度, 使之能够进行实时处理,还有不少人开始转向基于二阶统计量的盲分离算法, 虽然这种算法能够用于实时分离,但是分离效果同样是不够理想。另外一个方向就是将信息论的方法引入了盲分离问题。年,和提出了基于信息论的的盲分离算法【】,通过最大化输出非线性节点的熵,得到一种最大信息传输的准则,随后这两位学者将独立分量分析的各种盲分离算法第一章绪论纳入了信息论的统一框架下,得到了分离算法的一致学习规则。年, .等人基于最小互信息准,提出了改进后的自然梯度算法, 将解混矩阵乘以,用自然梯度替代常规的梯度方法,不仅可以去除矩阵的求逆运算,还可以提高算法的收敛速度和统计有效性,同时算法具有等变特性,即不受混叠矩阵的影响。和于年提出一种定点的快速算法【】,该类算法可以提取单个具有正或负峭度的源信号。随着瞬时混合盲分离方法的研究取得了巨大的进展以后,人们对卷积混合盲分离问题的研究工作也逐步展开】,等人将瞬时混合模型下基于自然梯度的最小互信息方法在卷积混合问题当中进行了推广,该方法虽然可以解决很多通信领域当中的信道均衡问题,但是由于其基于时间域独立信号的等前提假设使得其不能很好的解决语音信号的分离问题。同时人在等人提出的基于二阶统计量的瞬时分离方法的基础上,考虑语音信号的时域相关性,通过构造矩阵的方式提出了能够解决卷积混合问题的新方法,但是其解混矩阵的更新规则中存在语音断续时的矩阵奇异问题。此外也有很多学者如,,等人,他们选择利用信号频域变换的方法,将时域的卷积混合转化为频域的瞬时混合,在每一个单独的频点上采用已经十分成熟的瞬时盲分离方法,但是这一类频域方法普遍存在不同频点分离信号之问的顺序不一致题。到目前为止,大部分语音信号盲分离问题的解决方法都是基于比较成熟的理论,但是由于方法具有的对源信号数目不得大于观测信号数目的限制和局限,所以也有一部分学者尝试在这个框架体系之外寻求另一种思路,比如 , 和等人,他们针对语音信号时频能量图谱的稀疏特性,通过在时频域的方法,仅仅利用两路观测信号就可以恢复出所感兴趣的目标信号,但是这一类方法由于主要针对的是瞬时混合的场合,在卷积混合的处理中还存在很多未解的问题。最近等人提出一个半盲的卷积分离方法,但此方法需要一个自噪声源进行学习,在实际环境中很难做到。尽管时域盲分离处理技术发展到今天已经得出了许多较好的分离算法,但是这些算法大多数是在一定的限定条件或前提假设下得到的。如:基于自然梯度的最小互信息的解卷积方法,是以信号的平稳性为前提的,同时信号需要满足空间和时间的独立条件,而对于语音信号,它是非平稳的,且同一路信号在时间上是有相关的,因此,该方法对实际卷积混合的语音信号的分离效果比较差;基于二阶统计量的解卷积混合的方法,考虑了语音的时间相关性,但当源的数目发生改变时,它面临着矩阵求逆而奇异的问题。所有的时域解卷积混合的方法,对于卷积深度没有一种估计得方法,是以经验方法确定,因此,这也是目前对卷积混第一章绪论合的语音信号的分离不能达到好的效果的原因。而且上述的方法还是停留在实验室的研究阶段,对于实际情况下的盲分离问题,特别是实际环境中的语音信号分离,由于信号的不平稳,周围环境中回响的存在,以及说话人的移动等因素,直接导致现有的多数算法不能得到良好的分离效果。因此,可以说要真正解决这个问题,并且可以投入到实际应用当中去,还需要很长的一段路要走,研究所面临的困难和挑战还有很多。 .研究阶段的工作和主要创新点在硕士研究生研究的第一阶段,我参加了复旦号”智能自主发育机器人的开发工作。在研究的第二阶段,针对上一节提到的时域的解卷积混合的方法和时频域的半盲方法中的问题,提出改进的方法,同时,对卷积深度的估计也作了探索,推导了卷积深度的估计的公式,具体工作如下: 一、第一阶段的主要工作工程开发方面: 在硕士第一学年期间,主要参与完成了学校工程、上海市科委重点支持项目:“复旦号”智能自主发育机器人平台的工程研发项目。在这个项目当中我主要完成了以下工作: 完成机器人主控部分、语音和听觉部分以及激光部分的系统框架设计参与设计和具体实现了机器人自主导航,语音识别和交互,机器人激光避障等演示项目按照软件工程规范完成相应功能模块的代码编写六个可复用类库,上百行代码、测试和文档撰写等工作。对相应的学习算法在具体操作和实验当中完成工程性简化和改进工作系统集成测试和联调,记录和整理相关的实验数据参与长三角青年创新展等关于机器人的科技展示活动的演示和准备工作,该项目获长三角青年创新展二等奖。在此期间,我在机器人语音交互系统的开发过程中,发现现有的语音识别方法在实际的应用中,特别是多人且回音较重的语音环境下,具有很大的局限性,因此促使我在完成了第一阶段工作后,选择以语音信号的卷积混合盲分离问题作为理论研究的方向。二、第二阶段的主要工作和创新点理论研究方面: 这一阶段的工作主要集中在对语音信号卷积混合盲分离问题的探索和改进。针对现有的自然梯度的最小互信息方法对非平稳和时间相关的语音信号分离效果比较差的问题进行了分析,提出一种改进的基于自然梯度法的在线卷积混合盲分离方法。该方法以传统互信息算法为基础,提出带遗忘因子的分块处理和第一章绪论不完备约束条件结合的方法, 解决了传统在线互信息方法中由于语音信号的非平稳性和时间相关性等而导致恢复信号出现振荡和失真的问题,实验证明本文提出的方法具有更好的鲁棒性和分离效果。针对现有的基于二阶统计量联合去相关的时域盲分离方法对源的数目改变会出现接近奇异的问题,提出求模替代求逆的方法,避免了原有算法在迭代过程中的矩阵奇异问题同时也减少了高维矩阵求逆时的运算量。此外,还通过借鉴瞬时模型下的二阶白化算法,利用语音信号的模型和二阶统计量信息推导了卷积混合深度的盲估计的公式,为解混滤波器长度的选取提供优化的参考量。针对传统的基于理论的盲分离方法往往需要满足源信号数目不大于观测信号数目这个比较苛刻的前提条件,引入了基于语音信号时频图稀疏性假设的 . 方法。同时结合语音信号模型,用一般的语音信号来替代白噪声源作为训练信号,并利用时频图谱插值补偿的方法,解决已有此类方法中存在的用二值带来的能量损失等问题。具体的实验证实,改进后的时频域结合的分离方法信号的保真度得到了提高。 .本文的研究内容及组织结构本文主要针对语音信号的卷积混合盲分离闯题,结合现有方法中存在的问题和难点,提出新的思路和方法。全文的内容组织如下: 第一章绪论介绍了盲信号分离问题的物理和数学模型,及现阶段国内外的研究概况。第二章:线性混合信号盲分离方法的综述详细介绍传统的卷积混合信号时域和频域盲分离方法特别是基于经典理论的方法,并且通从理论和实际的角度分析这些方法在处理语音信号盲分离问题时所遇到的局限和原因。第三章:基于自然梯度的最小互信息方法及其改进根据语音信号的非平稳和时间相关等特殊的统计特性和数学模型,结合分块处理方法和带遗忘因子的不完各约束条件,提出改进后的基于自然梯度法的在线卷积混合盲分离方法,并通过理论分析和试验结果证明方法的有效性。第四章:基于二阶统计量的卷积混合语音信号盲分离方法分析基于二阶统计量的时域盲分离方法在迭代过程中遇到静音时的矩阵奇异问题并对其进行改进,同时利用语音信号的模型和二阶统计量信息提出卷第一章绪论积混合深度的盲估计方法。的卷积混合语音信号盲分第五章:时域和频域相结合的基于离方法讨论传统的基于理论的盲分离方法在实际情况当中,当源信号数目大在信号增强中的应于混合信号数目时所遇到的局限,结合用,并利用时频图谱补偿的方法,提出改进后的时频域结合的分离方法。第六章:智能发育机器人的工程化平台介绍智能发育机器人系统的理论体系和工程化工作,以及研究语音信号盲分离方法在智能机器人系统中语音前端处理模块中的潜在的应用。第七章:总结和展望总结全文的工作和创新点,认真分析本文工作的特点和不足以及对将来的工作进行展望。第二章线性混合信号盲分离方法的综述第二章线性混合信号盲分离方法的综述在第一章的绪论中,我们引入了线性瞬时混合盲分离和卷积混合盲分离的基本数学模型,并且对盲信号分离的研究成果和现状作了大致的介绍。在这一章当中我们将着重介绍几类具有代表性的盲分离方法,并且分析现有盲分离方法在语音信号处理当中所遇到的困难和局限性。 . 统计学和信息论方面的概念和基本知识在介绍盲分离方法之前,我们有必要先简要介绍一下在盲分离算法研究当中主要用到的统计学和信息论方面的概念和基本知识。 ..统计独立性当我们研究两个零均值的随机变量的时候,如果其联合概率密度函数 ,等于各个变量的边缘概率密度函数,蚓的乘积,那么我们可以认为这两个变量是统计独立的,这是最基本的统计概念.即 , ? 与统计独立相比,不相关是较弱的概念。如果随机变量乘积的期望等于随机变量期望的乘积,则认为两变量是不相关的,即在信号的盲分离方法中,由于我们不具备关于源信号本身足够的先验知识, 所以我们常常利用对源信号之间的独立性假设来求取对源信号的最优估计。的很多算法就是以这种独立性为基础的。 ..熵按照信息论,一个离散随机变量的熵为: ?一?? 这里口。是的可能值,是取值的概率。熵是非负的,从定义表达式我们也可以看出,变量的分布越随机,变量的熵越大。假如是一个连续的随机变量,则差熵的定义为:第二章线性混合信号盲分离方法的综述出. ?一一工对于向量随机信号一“,?,‘尸?‖来说,其差熵的表达式为: 日一一 ,,?.,‖“矗由?. 一卜而屯当向量的各个分量之间独立时,我们有这样的关系; 日?日“ 即随机向量的联合差熵等于各个分量差熵的和,此时卸【达到最大值。因此我们往往可以根据这个关系来衡量中各个分量之间的独立性。 ..卜散度和互信息信息理论当中,还有一个非常重要的概念就是散度 ,它可以用来测量两个概率密度函数之间的接近程度。定义为 ?,五。,八器出四式中以力,以力是关于:的两个不同概率密度函数。散度有以下重要性质: 散度是非负的,即,仅当见?一岛?时等式成立: 散度对可逆的线性变换或非线性变换保持不变龊度量两个随机变量和的概率密度函数的互信一个信息量,也可用来表征这两个变量动,的概率密度函数之间的关系。定义为。 ,???焉%参蚴, 由于熵的定义:日一?蛾出,所以互信息与熵的关系可写为 ,日,一日,,从.式可以看出,互信息等于联合概率密度函数和两个边缘密度函数乘积的散度。也就是说如果变量,相互独立,则两者的互信息应为。互信息的定义也可扩展到单个多维变量,其互信息定义为联合分布概率密度函数和各个分量的概率密度函数的乘积之间的散度:第二章线性混合信号盲分离方法的综述 ,佴?‘一崦页暑等雨叔互信息的特性在很多方面与散度的特性类似,也是用来衡量中各个分量之间的独立性的一个很好的信息量。 ..峭度一蛸度是一种经典的用来度量随机变量非高斯性的高阶统计量,又称四阶累积量。峭度的定义为: 慰?一印当具有单位方差时,上式可以简化为勋,缸卜。如果是高斯随机信号,其峭度为零。对于非高斯的随机变量,我们可以根据峭度的正负号,将它们分为超高斯信号和亚高斯信号两大类。从随机信号的概率密度曲线来说,亚高斯信号分布的概率密度函数看起来平坦一些,例如均匀分布, 超高斯信号的概率密度函数看起来更尖锐一些,例如拉普拉斯分布。数据通讯中的信号和图像信号等通常是属于亚高斯的,而语音信号和音乐信号通常是超高斯的。根据概率论中的中心极限定理,在一定条件下,多个独立分布的和的分布趋向于高斯分布。将该理论应用到盲分离问题可以得出这样的结论:观测信号是多个独立源信号的线性组合,所以其高斯性比源信号的高斯性强,也就是说,源信号的非高斯性比观测信号的非高斯性要强。这就启示我们将非高斯性作为分离信号的一个判据,那么假如提前知道了源信号的峭度范围,就能对盲信号处理算法进行控制, 使得输出信号的峭度做到最大或最小化来进行分离。 . 瞬时混合盲分离方法在盲信号分离问题研究的早期,大部分学者的研究成果主要还是基于忽略信号延迟和卷积混合效应的瞬时混合模型。虽然这些算法在实际的语音信道盲分离当中不能得到很好的分离效果,但是仍然具有非常重要的学术价值,现有的许多卷积盲分离方法就是在这些方法的基础上进行的深入和推广。接下来我们在前面介绍的熵,互信息和峭度等独立性和非高斯性测度统计量的基础上,介绍几种具有代表性的瞬时混合盲分离方法,由于互信息和熵的代价函数本质上是等价的, 故本节只介绍互信息的方法。第二章线性混合信号盲分离方法的综述 .. 自然梯度的最小互信息方法最小互信息方法是以式为代价函数,用梯度下降法求取最优的分离信号的解混矩阵,以使其所构造的代价函数达到最小值,但由于最小互信息的目标函数是高度非线性的,用一般的梯度下降法速度很慢,自然梯度法是在黎曼空间上的求梯度方法,它可以加快其收敛速度,为此我们对其作一简单介绍。假设/伽。是一个维系数空间,其中一,:?。为一个矢量。在,的维空间中定义一个关于的代价函数口,函数口的梯度定义为。【竺,旦?.旦 .. 。。 .‘ 此处被称为标准梯度。假如妒是具有正交坐标系的欧式空间的话,那么由微积分知识我们知道函数的梯度提供了函数最快速上升的方向, 提供了函数的最快速下降的方向。梯度下降法搜索的极小值的更新方法为: 一其中为定义的学习步长。在利用这种梯度法做自适应处理时,梯度往往确定的是直角坐标系下目标函数的最陡方向。但是在很多的应用中,目标函数常常是一个曲面或者说是一个流形,我们应该沿着曲面上的最陡方向进行搜索。这两种搜索方向的概念并不完全相同。我们说当妒是具有标准正交化坐标系的欧式空间时,微分量口的平方长度一般可以表示为。?妇,,然而假如这个坐标系不是标准正交化的那么妇一?勖啦,此时的妒空间变成一个弯曲的流型,这样的空间就被称为黎曼空间,‰被称为黎曼空间的张量。欧式参数空间是具有黎曼结构的参数空间的一个特例。在黎曼空间上的梯度就称为自然梯度。通俗一点说, 就是当目标函数是一个曲面的时候,我们在如是一个小常数的条件下, 使得在曲面上取值最小的方向定义为在点的自然梯度方向最小互信息方法就利用了解混信号之间的互信息作为代价函数: 地??此。?瓦意%万匆使得当代价函数达到最小值的时候满足???的独立性假设。第二章线性混合信号盲分离方法的综述同时在.知道,根据概率密度函数和之间的雅可比转换关系 . 。,代价函数可以简化为如下的形式: ,当然由于第一个分式与 ,一日?一善无关,因此把它舍去,同时考虑在线算法.当中瞬时值与期望值的近似,从而得到最终简化后的最小互信息目标函数为: .,一?瓴等人在文中也证明,在盲信号处理的分离矩阵的局部黎曼参数空间当中,要使得目标函数铡最小化,自然梯度和常规梯度的映射关系满足: 厂一因此我们就可以得到自然梯度的最小互信息方法中关于解混矩阵的在线更新公式为: 一一叩 . 一叩【一 ,】【】’ 叩【,一’】其中叩为迭代步长,,五饥,,:,:?‘.矿,五也?.?对于语音矾信号来说一般是取符号函数或者正交双曲函数。自然梯度的最小互信息方法的优点在于它是一个在线的迭代方法,不需要进行白化等预处理,可以比较好的跟踪周围环境的变化。 ..以非高斯性为目标的定点算法定点算法【】是以式?为代价函数的,通过迭代算法获得解混矩阵使四阶累积量达到最大化,如信号为超高斯分布。或, 如信号为亚高斯分布。首先对观测信号进行预自化,得到白化后的信号,从而使得观测信号与源信号之间构成正交变换关系第二章线性混合信号盲分离方法的综述该方法首先对观测信号进行预白化,得到自化后的信号啧白化的方法是计算混合观测信号的相关矩阵,并进行奇异值分解: 即。『?,取白化矩阵:,白化后的信号为翟,满足广?、苫,即?, 其中为正交矩阵。对?的求解是对进行的。等人提出的快速定点算法如下:令解混矩阵【,一?屹】 .随机初始化解混矩阵向量,哪 ,一 :,’.,’, 厶?埘 .一一一:篙 :嚣淼盘, .对分离矩阵的行向量进行正交化: 一 .重复.步,直到收敛为止。定点算法的优点是不存在学习因子的选择问题,而且收敛速度快, 可以实现信号的单个抽取。此外该算法对源信号的正负,即对源信号的超高斯或亚高斯性没有限制。算法的缺点在于需要对混合观测信号进行预白化, 是一个批处理的过程。 .. 算法除了用互信息和非高斯作代价函数外,用带延迟的二阶统计量的特征分解的方法是一种比较新的盲分离方法。【】是其中的一个代表。.等人在【中证明,在混合系统和源信号满足如下条件时,混合系统是可辨识的,即源信号是可分的: 假定瞬时混合系统满足的瞬时混合模型 .混合矩阵是列满秩的 .源信号墨,?砷之间互不相关,即气,。,,一 .存在,使得弛坞?竹一,?,方差归一化之后算法的主要步骤: .对观察信号砸进行白化,白化的方法如..节 .选择时间延迟,使得矩阵。协。。/且具有不同的特征值 . 一。即为分离后的恢复信号。算法利用了信号的延时相关矩阵,因此要求源信号必须为非白化信第二章线性混合信号盲分离方法的综述号。因此如果源信号中存在两个以上的白噪声信号,则不能分离。在本算法的步骤中,如果选取的时间延迟不能满足条件,即。的特征值有重根, 将导致算法失败。此外,本算法是一种完全特征值分解算法,只适用于批处理。 ..其他的瞬时混合盲分离方法对于瞬时混合模型下的信号盲分离问题,除了前面提到的这些具有代表性的经典算法外,还有一些其它算法。比如基于二阶统计量的方法、基于四阶累积量的算法,非线性算法、时频分析算法等等,基于篇幅所限我们这里就不做详细的展开了。 . 卷积混合盲分离方法我们知道,在盲信号处理的许多实际应用中,观测到的混合信号往往是被卷积混合的,也就是说在一般情况下,传感器接收到的混合信号不是源信号的简单瞬时混合,而是多个信号的具有不同路径延迟和幅度衰减的混合,这个过程等同于通过卷积滤波将信号混合起来。这使得采用前面介绍的瞬时盲信号处理的一般方法很难准确地估计和恢复出源信号。因此与瞬时盲分离方法相比较面言,卷积盲分离方法有着更全面,更广泛的应用范围,本节将主要介绍这方面的研究工作。 .. 卷积混合盲分离问题的可解性分析我们知道卷积混合信号的数学模型可以如下表示: 。荟?,。其中一毛??‘『为通道的源信号向量,一融椎毛?.”?” 为通道的混合观测信号向量,。为延迟个时司单位的为的混合冲激响应矩阵,在变换域用多?,,来表示。为卷积延迟深度。为了保证信铺道混合系统卷积混合传递函数的可逆性以使得盲信号分离问题可解, 往往给出如下的假设: .混合系统亿是稳定系统,混合.冲激响应阵满足如下的条件: 扣扣第二章线性混合信号盲分离方法的综述其中.代表范数,这个条件用来确保系统在有界输入的情况下产生有界的输出,也就是保证系统的稳定。混合系统在复平面上的单位圆脚一上是满秩的,也就是在单位圆上没有零点。在卷积混合盲分离算法研究的早期,学者们也曾经试图利用一定的数学技巧,在一定的先决假设条件下,利用比较成熟的瞬时混合盲分离方法,特别是基于理论的盲分离方法来解决相对比较复杂的卷积混合问题【】,这一类方法大致依照如下的思想: 么假先决条件,同时观测信号的数目也大于源信号数目,那么此时就可以把所有的延迟的源信号看作为增加的独立源,则有: ’,.南一朋’一,。‘,....? ’’毛。.?。‘,。‘,一】把原来的卷积运算关系式展开成矩阵的线性乘法关系式。 .一’。其中’?为展开后混合系统的传递参数矩阵,为足够的时间延迟,使其满足接受信号的数目要大于源信号即肘。把这个展开后的线性混合系统关系式与..式相比较,我们可以看出每一路混合观测信号而在不同时间点的观测值仍然满足原先的而一罗罗巩乜,,?的卷积混合关系。那么假如‘为满秩矩阵大多数情况下是满足的,同时是.,?,之间两两独立源信号之间在时间和空间域上都满足独立的假设条件的统计关系也成立的话,则可以把丑.,?看作为展开后的新的线性混合模型中的一个个相互独立的源信号,利用已有的许多瞬时混合盲分离方法来解决这个问题了。当然从直观的角度来说这一类算法当卷积延迟比较大时,算法的运算量是比较大的,因为展开后所衍生出的那些新的源信号数目是随着线性增长的。但是,在实际的应用当中真正遇到的问题并不仅仅在于此, 特别是在语音信号的盲分离应用当中,这一类方法是不能够使用的。下面我们将对语音信号的特殊统计特性作一个分析,来解释其中的原因。第二章线性混合信号盲分离方法的综述 .. 语音信号的统计特征以及由此给卷积混合盲信号分离带来的困难大多数现有的卷积混合盲分离方法为了方便问题的分析往往假设源信号是平稳,非高斯、时间域不相关,最小相位信号,符合简单的独立同分布的随机变量的条件,其具有静态的峭度、概率密度函数和负熵值,这是典型的平稳过程。当这些方法应用到实验室的计算机模拟信号或者人造通信信号的盲分离问题时,由于统计特性相对比较符合算法的理论假设,所以往往可以得到比较满意的分离效果,但是一旦使用到语音信号的分离问题时,常常会碰到诸多问题。接下来,我们将对语音信号特殊的统计特征进行分析,阐述这些方法产生局限性的原因。首先,我们给出两路实际麦克风采集到的不同人的语音信号,,它们的时域波形图如图.表示,同时分析语音信号的均值、方差以及高阶统计量随时间的变化趋势: . 图.实际麦克风采集到的两路不同人的语音信号的时域波形图图.语音信号的统计量分析 ?.第二章线性混合痿号盲分离方法的综述这两路语音信号是在同样的采样频率心下采集到的语音时问序列, 每个序列的采样点为万个点,大约为秒钟左右的语音信号。从信号的时域图图.和统计参量图图.上我们不难看出,由于入的语音时断时续,音调高低变化频繁,作为语音信号的均值、方差值、峭度等很多统计变量, 是随着时问不断的变化的,所以它显然不是一个平稳的随机过程其次,我们分析两路语音信号的概率密度分布图图.,从这个概率密度直方图上我们可以看出语音信号的分布是一个很尖锐的峰,这也说明了语音信号在整个时间域上是基本满足超商斯分布假设的随机信号。 ?图粥语音信号的概率密度分布图接着,我们利用两路语音信号的随机样本画出和联合分布图图 .,其中横轴和纵轴分别表示和的幅值,这幅图表明了不同路的语音信号在整个时闻域基本满足统计独立的假设。这一点我们可以和人造独立的两路超高斯随机信号联合分布图图.作对比,两者十分相像。图粥.两路实际语音信号联合分布圈图拍.人造独立的两路超高斯随机信号联合分布图 ,轴分别表示和的幅值对于卷积混合语音信号的盲分离问题,由于分离的结果不仅包含幅度和顺第二章线性混合信号盲分离方法的综述序的不确定性,同时也包含了信号滤波的不确定性,即恢复信号可能是源信号经过滤波得到的估计。我们有必要分析语音信号在时间域上的相关特性。其中图和的联合分布图,它表征了同一路语音信号的时间相关特性? 图为和和的联合分布图,它表征了不同路语音信号之间的时问相关特性。图?. 和赃不同的延迟时问时的联合分布图图从上到下,从左到右捧列为,,~? 图? 和雄的在不同的延迟时间时的联合分布图图从上到下,从左翌右捧列为,从图..和..上我们可以得出:同一路的语音信号在时间域上具有统计相关特性,而不同路的语音信号在时间域中才是相互独立的,因此,在 .第二章线性混合信号盲分离方法的综述 ..节中的把源信号展开为计个独立的源信号变得不可能。同时,假如我们不能得到关于同一路信号的这种时间相关特性的先验知识,那么我们在处理卷积混合盲分离问题时就不能区分源信号和源信号自身的滤波后的信号,也就是不能解决信号的解卷问题。如果算法本身是基于信号时间域不相关的解卷分离方法,那么在对语音信号进行分离的过程中,由于算法是以对信号的时同域结构存在不相关的前提假设,就势必会对恢复信号带来很大的失真。通过以上的分析我们知道,语音信号和一般的信号相比具有不平稳、时间相关等特殊的统计特性,这些统计特征是我们在研究信号盲分离方法,特别是针对语音信号的卷积混合盲分离方法时必须考虑到的重要因素。而恰恰是因为这个原因,在上一节中介绍的利用变换式展开的方法,具有太多的局限性,显然对于语音信号这样的卷积盲分离问题是不适用的,它具有太多的局限性。卷积信号的盲分离算法研究到目前为止还是信号处理领域的一个难点,它有很多的问题需要我们去解决。但是经过很多学者的研究,也取得了比较多的成果,在现有的方法中按照所处理的信号域大致可以分为两类:时域盲信号分离方法和频域盲信号分离方法。 .. 卷积混合信号的时域盲分离算法卷积混合盲分离方法当中很重要的一类是时域盲分离方法,它们最主要的特点就是不进行域变换,直接应用信号的原始时问序列模型来进行分离与处理。其中的大部分方法是通过把得到的混合观测信号经过一个有限冲激响应滤波器来求取估计到的恢复信号。对于这类方法来说,分离过程就是通过估计滤波器的系数矢量来完成信号的分离。时域卷积混合盲分离系统的解混系统数学模型如下: ?肘’ 荟, 其中为解混系统的输出信号,考虑的情况,,为维矩阵,矩阵的每个元素为冲激响应滤波器,为解混滤波器长度,它是矩阵元素中冲激响应最长的阶数。用变换域的表示方法可以简单写成: , :,一?弦’’ 在这里由于我们未对源信号的结构作任何假设,所以和瞬时盲分离方法一样恢复的信号是对源信号次序的重新排序、幅度缩放以及滤波的形式。为了恢复原始信第二章线性混合信号盲分离方法的综述号,我们通常希望解混系统是混合系统传递函数的逆的估计值,从纯数学的角度来说这意味着一个无限冲击响应滤波器应该被应用到解混滤波器模型上。然而,从稳定性和实用性的角度上考虑,一个长度为足够大的滤波器总是被用来代替?模型,尽管这在一定程度上会导致在估计源信号时产生不精确的问题,但是综合所有因素考虑,模型仍然是最为通用的解混系统参考模型。因此,为了保证被恢复的信号尽可能地与原始信号接近, 有效地估计解混滤波器系数是至关重要的。与瞬时混合相比卷积混合算法的复杂度显然要大很多。这是因为,每一个滤波器都有很多组参数需要调节,对于阶数为的解混滤波器来说同时就有个系数需要调节,因此,在实际的盲分离过程当中,整个估计过程的计算量往往是非常大的。我们知道,在前文所述的卷积混合数学模型中,假若,则每一个时刻的观测信号只与同一时刻的源信号关,此时卷积混合问题就退化为传统的瞬时混合模型下的盲分离问题了,也就是说瞬时混合模型是卷积混合模型的一个特例。从这个立足点出发,学者们很容易想到通过将瞬时混合信号盲分离算法作进一步推广来得到卷积混合信号的盲分离方法。下面就介

                    本文档为【关于时域卷积混合语音信号盲分离方法及其应用的研究】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

关于时域卷积混合语音信号盲分离方法及其应用的研究

你可能还喜欢