首页 数字语音信号处理

数字语音信号处理

数字语音信号处理研究设计型实验指导书数字语音信号处理实验指导书编著王让定熊益群徐国娟宁波大学信息科学与工程学院 2008年6月前言语音信号处理是研究用数字信号处理技术和语音学知识对语音信号进行处理的新兴的学科，是目前发展最为迅速的信息科学研究领域的核心技术之一。通过语音传递信息是人类最重要、最有效、最常用和最方便的交换信息形式。同时，语言也是人与机器之间进行通信的重要工具，它是一种理想的人机通信方式，因而可为信息处理系统建立良好的人机交互环境，进一步推动计算机和其他智能机器的应用，提高社会的信息化程度。语音信号...

研究设计型实验指导书数字语音信号处理实验指导书编著王让定熊益群徐国娟宁波大学信息科学与工程学院 2008年6月前言语音信号处理是研究用数字信号处理技术和语音学知识对语音信号进行处理的新兴的学科，是目前发展最为迅速的信息科学研究领域的核心技术之一。通过语音传递信息是人类最重要、最有效、最常用和最方便的交换信息形式。同时，语言也是人与机器之间进行通信的重要工具，它是一种理想的人机通信方式，因而可为信息处理系统建立良好的人机交互环境，进一步推动计算机和其他智能机器的应用，提高社会的信息化程度。语音信号处理是一门新兴的学科，同时又是综合性的多学科领域和涉及面很广的交叉学科。虽然从事这一领域研究的人员主要来自信号与信息处理及计算机应用等学科，但是它与语音学、语言学、声学、认知科学、生理学、心理学等许多学科也有非常密切的联系。 20世纪60年代中期形成的一系列数字信号处理的理论和算法，如数字滤波器、快速傅立叶变换（FFT）等是语音信号数字处理的理论和技术基础。随着信息科学技术的飞速发展，语音信号处理取得了重大的进展：进入70年代之后，提出了用于语音信号的信息压缩和特征提取的线性预测技术（LPC），并已成为语音信号处理最强有力的工具，广泛应用于语音信号的分析、合成及各个应用领域，以及用于输入语音与参考样本之间时间匹配的动态规划方法；80年代初一种新的基于聚类分析的高效数据压缩技术—矢量量化（VQ）应用于语音信号处理中；而用隐马尔可夫模型（HMM）描述语音信号过程的产生是80年代语音信号处理技术的重大发展，目前HMM已构成了现代语音识别研究的重要基石。近年来人工神经网络(ANN)的研究取得了迅速发展，语音信号处理的各项课题是促进其发展的重要动力之一，同时，它的许多成果也体现在有关语音信号处理的各项技术之中。为了深入理解语音信号数字处理的基础理论、算法原理、研究方法和难点，根据数字语音信号处理教学大纲，结合课程建设的需求，我们编写了本实验参考书。本本参考书针对教学大纲规定的四个研究设计型实验，每个实验给出了参考程序，目的是起一个抛砖引玉的作用，学生在学习过程中，可以针对某一个实验进行延伸的创新学习，比如说，语音端点的检测、语音共振峰提取、基于HMM或DTW的有限词汇或大词汇的特定人、非特定人的语音识别、识别率的提高（如何提高有噪环境下的识别率）、以及编码问题等，同时在学习中还可深入思考如何将有关的方法在嵌入式系统或DSP下的实现问题等。第一章数字语音信号处理教学大纲一、课程说明学分数：3 总学时：59 学时分配：讲课25学时，自主学习17学时，实验17学时适用专业：电子信息科学与技术，通信工程先修课程：信号与系统，数字信号处理二、课程教学的目的与任务本课程的学习目的是掌握语音信号处理的基本理论、基本分析方法，了解在语音信号处理领域中相关研究热点，激发学习者对语音处理相关研究方向中的有关兴趣，为以后的开展语音处理相关领域的研究、开发打下一个良好的基础。本课程是电子信息科学与技术，通信工程专业的方向模块课。本门课程的教学分理论和实验教学两部分，理论教学注重培养学生基本问题的分析方法，从而掌握基本的语音信号处理的理论与概念，理论教学还包括多种形式的自主学习，如网上学习、课外阅读、大型作业、主题调查、读书报告、分组讨论等。实验教学注重培养学生的动手能力、分析和解决问题的能力。三、课程教学的基本内容及学时分配 1. 语音信号处理概述（理论教学：2学时）语音信号处理的发展概况，语音信号处理的应用。 2.语音信号的特性及模型（理论教学：2学时）语音信号的产生，语音信号的特性，语音信号产生的数字模型，语音感知。 3. 语音信号的时域分析（理论教学：2学时，自主学习：2学时）语音信号的数字化和预处理，短时能量分析，短时过零分析，短时相关分析。 4. 语音信号的频域分析（理论教学：2学时，自主学习：1学时）短时傅里叶变换，短时傅里叶变换的取样率，语音信号的短时综合，语谱图。 5. 语音信号的同态滤波及倒谱分析（理论教学：2学时，自主学习：1学时）同态信号处理的基本原理，复倒谱和倒谱，语音信号两个卷积分量复倒谱的性质，避免相位卷绕的算法，语音信号复倒谱分析实例。 6. 语音信号的LP分析（理论教学：2学时，自主学习：2学时）线性预测分析的基本原理，线性预测方程组的建立，线性预测分析的解法，线性预测分析应用，线谱对(LSP)分析，极零模型。 7. 语音信号的矢量量化（理论教学：2学时，自主学习：1学时）矢量量化的基本原理，失真测度，最佳矢量量化器和码本的设计，降低复杂度的矢量量化系统，语音参数的矢量量化。 8. 语音编码-波形编码法（理论教学：2学时，自主学习：1学时）语音信号的压缩编码原理，脉冲编码调制(PCM)及其自适应，预测编码及其自适应APC，自适应差分脉冲编码调制(ADPCM)及自适应增量调制(ADM)，子带编码(SBC)，自适应变换编码(ATC)。 9. 语音编码-参数编码法（理论教学：2学时，自主学习：1学时）声码器的基本结构，相位声码器和通道声码器，同态声码器，线性预测声码器，混合编码，各种语音编码方法的比较，语音编码的性能指标和质量评价。 10. 隐马尔可夫模型（HMM）（理论教学：2学时，自主学习：2学时）隐马尔可夫模型的引入，隐马尔可夫模型的定义，隐马尔可夫模型三项问题的求解，HMM的一些实际问题。 11. 语音识别技术（理论教学：3学时，自主学习：4学时）语音识别概述，动态时间规整（DTW）识别技术，隐马尔可夫模型（HMM）识别技术，语音识别的应用技术。 12. 语音合成、语音增强技术（理论教学：2学时，自主学习：2学时）语音合成原理，共振峰合成，线性预测合成，专用语音合成硬件及语音合成器芯片，语音增强。四、教学方法本课程总学时59（总学分：3）；其中课堂讲授：25学时；自主学习：17学时；实验：17学时。理论课采用课堂教学方式，使用多媒体辅助教学手段，进行基本内容的讲授。适当安排一定的习题课时间，并布置适当的设计题以培养学生的设计、分析问题的能力。自主学习内容由学生自主学习参考教材的内容，并采用多种渠道，如查阅最新语音信号处理方面的科技文献、资料，作出学习报告。目的是培养学生的自学能力和科技文献的检索和查阅能力，同时可以有助于学生了解和掌握语音信号处理领域的最新技术进展和应用情况，将理论知识和实际应用结合起来，促进学生学习的积极性和主动性。本课程讲授自主学习的内容依每部分的教学进度交替安排。实验为研究型（设计型）实验，共安排4个实验，为了真正达到研究设计型实验的目的，将自主学习和研究设计型实验结合起来，统一安排。五、考核及成绩评定方式本课程的考核内容由下面四部分组成： 1、期末考试M1（100分）考核内容：教学计划全部内容；考核形式：闭卷考试。占总评成绩的50％ 2、实验考核（含自主学习）M2（100分）四个设计型实验各占25%（分别为M1、M2、M3、M4），评分标准是按试验分析方法、所设计的实验程序、实验结果等，由任课教师评定成绩 3、论文及主题报告M3（100分）按一般科学论文的写作规范的要求，写作4篇专题论文（含自主学习），每一学生选择至少一个写作规范的专题论文进行课堂交流报告，根据论文写作水平、报告的内容、思路、对问题的理解、以及报告方式等评定成绩。 4、平时考核M4（100分）由任课主讲教师按课堂表现、平时实验、自主学习情况及作业评定成绩。期末总评成绩M＝M1×50%＋M2（M2=M1×25%+M2×25%+M3×25%+M4×25%）×10%＋M3×30%＋M4×10%。六、教材及参考书目推荐教材：张雄伟等编著，《现代语音处理技术及应用》，机械工业出版社，2003年。参考教材： 1、 L.R. Rabiner, B.H. Juang. Fundamentals of Speech Recognition. Prentice Hall, Englewood Cliffs,1993. 清华大学出版社（影印），2002年. 2、胡航. 语音信号处理（修订版），哈尔滨工业大学出版社，2002年. 3、易克初，田斌等. 语音信号处理，国防工业出版社，2000年. 4、赵力. 语音信号处理，机械工业出版社，2003年. 5、吴家安等. 语音编码技术及应用，机械工业出版社，2006年. 6、韩继庆，张磊，郑铁然. 语音信号处理，清华大学出版社，2004年. 7、 D.G.Childers. Matlab之语音处理与合成工具箱（影印版），清华大学出版社，2004年. 8、 Thomas F. Quatieri著，赵胜辉等译，《离散时间语音信号处理—原理与应用》，电子工业出版社，2004. 七、实践环节实验学时数：17 实验学分：0.5 实验项目数：4 1、目的与基本要求实验为研究型（设计型）实验，共安排4个，为了真正达到研究设计型实验的目的，采用开放实验的办法，将自主学习和研究设计型实验结合起来，统一安排。通过开放实验，目的使学生进一步理解数字语音信息处理的基本方法，提高学生自主分析、发现及解决问题的能力，锻炼学生论文写作能力，为实际的应用打下扎实的基础。 2、研究设计型实验的内容 1）研究设计型实验1：基于MATLAB的语音信号时域特征分析要求：按所学相关语音处理得的知识，通过网上学习、资料查阅，自己设计程序，给出某一语音信号的短时过零率、短时能量、短时自相关特征的分析结果，并借助时域分析方法检测所分析语音信号的基音周期，写出报告（按一般科学论文的写作规范）。 2）研究设计型实验2：基于MATLAB分析语音信号频域特征要求：按所学相关语音处理的得知识，通过网上学习、资料查阅，自己设计程序，给出某一语音信号的短时谱、倒谱、语谱图的分析结果，并借助频域分析方法检测所分析语音信号的基音周期或共振峰，写出报告（按一般科学论文的写作规范）。 3）研究设计型实验3：基于MATLAB进行语音信号的LPC分析要求：按所学相关语音处理的知识，通过网上学习、资料查阅，自己设计程序，给出某一语音信号的LPC分析结果，包括LPC谱、LPCC谱的分析结果，并借助LPC分析方法检测所分析语音信号的基音周期和共振峰，写出报告（按一般科学论文的写作规范）。 4）研究设计型实验4：基于VQ的特定人孤立词语音识别研究要求：按所学相关语音处理的知识，通过网上学习、资料查阅，借助MATLAB工具，自己设计基于VQ的码本训练程序和识别程序（尽量选用所学HMM或DTW方法设计识别程序），能识别特定人的语音，分析所设计系统的特性，写出报告（按一般科学论文的写作规范）。第二章实验实验一基于MATLAB的语音信号时域特征分析一、实验目的语音信号是一种非平稳的时变信号，它携带着各种信息。在语音编码、语音合成、语音识别和语音增强等语音处理中无一例外需要提取语音中包含的各种信息。语音信号分析的目的就在与方便有效的提取并表示语音信号所携带的信息。语音信号分析可以分为时域和变换域等处理方法，其中时域分析是最简单的方法，直接对语音信号的时域波形进行分析，提取的特征参数主要有语音的短时能量，短时平均过零率，短时自相关函数等。本实验要求掌握时域特征分析原理，并利用已学知识，编写程序求解语音信号的短时过零率、短时能量、短时自相关特征，分析实验结果，并能掌握借助时域分析方法所求得的参数分析语音信号的基音周期及共振峰。二、实验原理及实验结果 1.窗口的选择通过对发声机理的认识，语音信号可以认为是短时平稳的。在5~50ms的范围内，语音频谱特性和一些物理特性参数基本保持不变。我们将每个短时的语音称为一个分析帧。一般帧长取10~30ms。我们采用一个长度有限的窗函数来截取语音信号形成分析帧。通常会采用矩形窗和汉明窗。图1.1给出了这两种窗函数在帧长N=50时的时域波形。图1.1 矩形窗和Hamming窗的时域波形矩形窗的定义：一个N点的矩形窗函数定义为如下 hamming窗的定义：一个N点的hamming窗函数定义为如下这两种窗函数都有低通特性，通过分析这两种窗的频率响应幅度特性可以发现（如图1.2）：矩形窗的主瓣宽度小（4*pi/N），具有较高的频率分辨率，旁瓣峰值大（-13.3dB），会导致泄漏现象；汉明窗的主瓣宽8*pi/N，旁瓣峰值低（-42.7dB），可以有效的克服泄漏现象，具有更平滑的低通特性。因此在语音频谱分析时常使用汉明窗，在计算短时能量和平均幅度时通常用矩形窗。表1.1对比了这两种窗函数的主瓣宽度和旁瓣峰值。图1.2 矩形窗和Hamming窗的频率响应表1.1 矩形窗和hamming窗的主瓣宽度和旁瓣峰值窗函数主瓣宽度旁瓣峰值矩形窗 4*pi/N 13.3dB hamming 8*pi/N 42.7dB 2.短时能量由于语音信号的能量随时间变化，清音和浊音之间的能量差别相当显著。因此对语音的短时能量进行分析，可以描述语音的这种特征变化情况。定义短时能量为：，其中N为窗长特殊地，当采用矩形窗时，可简化为：图1.3和图1.4给出了不同矩形窗和hamming窗长的短时能量函数，我们发现：在用短时能量反映语音信号的幅度变化时，不同的窗函数以及相应窗的长短均有影响。hamming窗的效果比矩形窗略好。但是，窗的长短影响起决定性作用。窗过大（N 很大），等效于很窄的低通滤波器，不能反映幅度En的变化；窗过小（ N 很小），短时能量随时间急剧变化，不能得到平滑的能量函数。在11.025kHz左右的采样频率下，N 选为100~200比较合适。短时能量函数的应用:1）可用于区分清音段与浊音段。En值大对应于浊音段，En值小对应于清音段。2）可用于区分浊音变为清音或清音变为浊音的时间（根据En值的变化趋势）。3）对高信噪比的语音信号，也可以用来区分有无语音（语音信号的开始点或终止点）。无信号（或仅有噪声能量）时，En值很小，有语音信号时，能量显著增大。图1.3 不同矩形窗长的短时能量函数图1.4 不同hamming窗长的短时能量函数 3．短时平均过零率过零率可以反映信号的频谱特性。当离散时间信号相邻两个样点的正负号相异时，我们称之为“过零”，即此时信号的时间波形穿过了零电平的横轴。统计单位时间内样点值改变符号的次数具可以得到平均过零率。定义短时平均过零率：其中为符号函数，，在矩形窗条件下，可以简化为短时过零率可以粗略估计语音的频谱特性。由语音的产生模型可知，发浊音时，声带振动，尽管声道有多个共振峰，但由于声门波引起了频谱的高频衰落，因此浊音能量集中于3KZ以下。而清音由于声带不振动，声道的某些部位阻塞气流产生类白噪声，多数能量集中在较高频率上。高频率对应着高过零率，低频率对应着低过零率，那么过零率与语音的清浊音就存在着对应关系。. 图1.5为某一语音在矩形窗条件下求得的短时能量和短时平均过零率。分析可知：清音的短时能量较低，过零率高，浊音的短时能量较高，过零率低。清音的过零率为0.5左右，浊音的过零率为0.1左右，但两者分布之间有相互交叠的区域，所以单纯依赖于平均过零率来准确判断清浊音是不可能的，在实际应用中往往是采用语音的多个特征参数进行综合判决。短时平均过零率的应用：1）区别清音和浊音。例如，清音的过零率高，浊音的过零率低。此外，清音和浊音的两种过零分布都与高斯分布曲线比较吻合。2）从背景噪声中找出语音信号。语音处理领域中的一个基本问题是，如何将一串连续的语音信号进行适当的分割，以确定每个单词语音的信号，亦即找出每个单词的开始和终止位置。3）在孤立词的语音识别中，可利用能量和过零作为有话无话的鉴别。图1.5 矩形窗条件下的短时平均过零率 4、短时自相关函数自相关函数用于衡量信号自身时间波形的相似性。清音和浊音的发声机理不同，因而在波形上也存在着较大的差异。浊音的时间波形呈现出一定的周期性，波形之间相似性较好；清音的时间波形呈现出随机噪声的特性，样点间的相似性较差。因此，我们用短时自相关函数来测定语音的相似特性。短时自相关函数定义为：令，并且，可以得到：图6给出了清音的短时自相关函数波形，图7给出了不同矩形窗长条件下（窗长分别为N=70，N=140，N=210，N=280）浊音的短时自相关函数波形。由图1.6、图1.7短时自相关函数波形分析可知：清音接近于随机噪声，清音的短时自相关函数不具有周期性，也没有明显突起的峰值，且随着延时k的增大迅速减小；浊音是周期信号，浊音的短时自相关函数呈现明显的周期性，自相关函数的周期就是浊音信号的周期，根据这个性质可以判断一个语音信号是清音还是浊音，还可以判断浊音的基音周期。浊音语音的周期可用自相关函数中第一个峰值的位置来估算。所以在语音信号处理中，自相关函数常用来作以下两种语音信号特征的估计： 1）区分语音是清音还是浊音； 2）估计浊音语音信号的基音周期。图1.6 清音的短时自相关函数图1.7 不同矩形窗长条件下的浊音的短时自相关函数 5、时域分析方法的应用 1）基音频率的估计首先可利用时域分析（短时能量、短时过零率、短时自相关）方法的某一个特征或某几个特征的结合，判定某一语音有效的清音和浊音段；其次，针对浊音段，可直接利用短时自相关函数估计基音频率，其方法是：估算浊音段第一最大峰的位置，再利用抽样率计算基音频率，举例来说，若某一语音浊音段的第一最大峰值约为35个抽样点，设抽样频率为11.025KHZ，则基音频率为11025/35=315 HZ。但是，实际上第一最大峰值位置有时并不一定与基音周期吻合。一方面与窗长有关，另一方面还与声道特性有关。鉴于此，可采用三电平削波法先进行预处理。 2）语音端点的检测与估计可利用时域分析（短时能量、短时过零率、短时自相关）方法的某一个特征或某几个特征的结合，判定某一语音信号的端点，尤其在有噪声干扰时，如何准确检测语音信号的端点，这在语音处理中是富有挑战性的一个课题。三、附录（参考程序） 1）短时能量（1）加矩形窗 a=wavread('beifeng.wav'); subplot(6,1,1),plot(a); N=32; for i=2:6 h=linspace(1,1,2.^(i-2)*N)；%形成一个矩形窗，长度为2.^(i-2)*N En=conv(h,a.*a);% 求短时能量函数En subplot(6,1,i),plot(En); if(i==2) legend('N=32'); elseif(i==3) legend('N=64'); elseif(i==4) legend('N=128'); elseif(i==5) legend('N=256'); elseif(i==6) legend('N=512'); end end （2）加汉明窗 a=wavread('beifeng.wav'); subplot(6,1,1),plot(a); N=32; for i=2:6 h=hanning(2.^(i-2)*N)；%形成一个汉明窗，长度为2.^(i-2)*N En=conv(h,a.*a);% 求短时能量函数En subplot(6,1,i),plot(En); if(i==2) legend('N=32'); elseif(i==3) legend('N=64'); elseif(i==4) legend('N=128'); elseif(i==5) legend('N=256'); elseif(i==6) legend('N=512'); end end 2）短时平均过零率 a=wavread('beifeng.wav'); n=length(a); N=320; subplot(3,1,1),plot(a); h=linspace(1,1,N); En=conv(h,a.*a); %求卷积得其短时能量函数En subplot(3,1,2),plot(En); for i=1:n-1 if a(i)>=0 b(i)= 1; else b(i) = -1; end if a(i+1)>=0 b(i+1)=1; else b(i+1)= -1; end w(i)=abs(b(i+1)-b(i)); %求出每相邻两点符号的差值的绝对值 end k=1; j=0; while (k+N-1) 方案：一种是将长的语音序列加窗，然后对加窗语音进行LP分析，只要限定窗的长度就可以保证分析的短时性，这种方案称为自相关法；另一种方案不对语音加窗，而是在计算均方预测误差时限制其取和区间，这样可以导出LP分析的自协方差法。本实验要求掌握LPC原理，会利用已学的知识，编写程序估计线性预测系数以及LPC的推演参数，并能利用所求的相关参数估计语音的端点、清浊音判断、基因周期、共振峰等。二、实验原理 1 LP分析基本原理 LP分析为线性时不变因果稳定系统V（z）建立一个全极点模型，并利用均方误差准则，对已知的语音信号s(n)进行模型参数估计。如果利用P个取样值来进行预测，则称为P阶线性预测。假设用过去P个取样值的加权之和来预测信号当前取样值，则预测信号为： (1) 其中加权系数用表示，称为预测系数，则预测误差为: (2) 要使预测最佳，则要使短时平均预测误差最小有： (3) (4) 令 (5) 最小的可表示成： (6) 显然，误差越接近于零，线性预测的准确度在均方误差最小的意义上为最佳，由此可以计算出预测系数。通过LPC分析，由若干帧语音可以得到若干组LPC参数，每组参数形成一个描绘该帧语音特征的矢量，即LPC特征矢量。由LPC特征矢量可以进一步得到很多种派生特征矢量，例如线性预测倒谱系数、线谱对特征、部分相关系数、对数面积比等等。不同的特征矢量具有不同的特点，它们在语音编码和识别领域有着不同的应用价值。 2 自相关法在最佳线性预测中，若用下式定义的时间平均最小均方准则代替(3)式的集合平均最小均方准则，即令 (7) 事实上就是短时自相关函数，因而 (8) （9）根据平稳随机信号的自相关性质，可得 (10) 由(6)式，可得： (11) 综上所述，可以得到如下矩阵形式： (12) 值得注意的是，自相关法在计算预测误差时，数据段的两端都需要加P个零取样值，因而可造成谱估计失真。特别是在短数据段的情况下，这一现实更为严重。另外，当预测系数量化时，有可能造成实际系统的不稳定。自相关解法主要有杜宾算法、格型算法和舒尔算法等几种高效递推算法。 3 协方差法如果在最佳线性预测中，用下式定义的时间平均最小均方准则代替(3)式的集合平均最小均方准则，则可得到类似的方程：（13）可以看出，这里的数据段两端不需要添加零取样值。在理论上，协方差法计算出来的预测系数有可能造成预测误差滤波器的不稳定，但在实际上当每帧信号取样足够多时，其计算结果将与自相关法的结果很接近，因而稳定性一般是能够保证的 (当然这种方法也有量化效应可能引起不稳定的缺点)。协方差解法的最大优点在于不存在自相关法中两端出现很大预测误差的情况，在N和P相差不大时，其参数估值比自相关法要精确的多。但是在语音信号处理时，往往取N在200左右。此时，自相关法具有较大误差的段落在整个语音段中所占的比例很小，参数估值也是比较准确的。在这种情况下，协方差法误差较小的优点就不再突出，其缺乏高效递推算法的缺点成为了制约因素。所以，在语音信号处理中往往使用高效的自相关法。 4 全极点声道模型将线性预测分析应用于语音信号处理，不仅是为了利用其预测功能，更因为它提供了一个非常好的声道模型。将式(2)所示的方程看成是滤波器在语音信号激励下的输入输出方程，则该滤波器称为预测误差滤波器，其e(n)是输出误差。变换到z域，P阶预测误差滤波器的系统函数为（14）可以看出，如果将预测误差e(n)作为激励信号，使其通过预测误差滤波器的逆滤波器H(Z)，即（15）则H(Z)的输出为语音信号s(n)，也就是说，H(Z)在预测误差e(n)的激励下可以合成语音。因此，H(Z)被称为语音信号的全极点模型，也称为语音合成器。该模型的参数就是P阶线性预测的预测系数。因为预测误差含有语音信号的基音信息，所以对于浊音，模型的激励信号源是以基音周期重复的单位脉冲；对于清音，激励信号源e(n)是自噪声。语音信号的全极点模型是一种很重要的声道模型，是许多应用和研究的基础。 5 LPCC 如果声道特性H(Z)用式(14)所示的全极点模型表示，有（16）式中，S(z)和I(z)分别为语音信号和激励源的Z变换。对人的听觉来说，浊音是最重要的语音信号。对于浊音，模型的激励信号源e(n)是以基音周期重复的单位脉冲，此时有。可得的Z变换S(z)为（17）式中，为P阶线性预测系数。根据倒谱的定义，对具有最小相位特征的语音信号，有（18）式中，为语音信号的倒谱。将式(16)代入式(17)，并对两边求导，得（19）根据上式即可由线性预测系数通过递推得到倒谱系数，将这样得到的倒谱称为线性预测倒谱系数。 6 结合语音帧能量构成LPC组合参数由于人能从声音的音色、频高等各种信息中感知说话人的个性，因此可以想象，利用特征的有效组合可以得到比较稳定的识别性能。一般来说，如果组合的各参量之间相关性不大，则会更有效一些，因为它们分别反映了语音信号中的不同特征。多年来，人们对组合参数在说话人识别中的应用进行了大量研究。实验证明，组合参数可以提高系统的识别性能。组合参数虽然可以提高系统的性能，但很显然，无论是在特征参数提取环节，还是在模型训练和模型匹配环节都使运算量有所增加。在特征参数提取环节，要计算一种以上的特征参数。在模型训练和模型匹配环节，由于组合参数特征矢量的维数较多，使运算复杂度有所增加。运算量的增加会使系统的识别速度受到影响。为使运算量问题得到较好的解决，所以可以由LPC参数与语音帧能量构成组合参数，能够在运算量增加不明显的情况下改进系统的性能。语音帧能量是指一帧语音信号的能量，它等于该帧语音样值的平方和。选取与语音帧能量构成组合参数主要有以下考虑：1）语音帧能量是语音信号最基本的短时参数之一，它表征一帧语音信号能量的大小，是语音信号一个重要的时域特征；2）由一帧语音求出的语音帧能量是一个标量值，与其它参量构成组合参数不会使原特征矢量的维数明显增加，特征矢量的维数越少，则需要的运算复杂度越小，另外，获取语音帧能量的运算并不复杂；3）语音帧能量与LPC参数之间的相关性不大，它们反映的是语音信号的不同特征，应该有较好的效果。 7 模型增益G 模型的激励信号表示为：（20）预测误差e(n)如式（2），这样当实际的预测系数与模型系数相等时，有（21）这说明激励信号正比于误差信号，其比例常数等于模型增益G。通常假设误差信号的能量等于输入激励信号的能量，因此可以得到：（22）对于式中的激励信号，主要分为浊音和清音两种情况。其中为浊音时，考虑到此时实际的激励信号为声门脉冲，因此可以将激励信号表示为时的单位抽样。为了保证这个假设成立，要求分析的区间应该大致和语音基因周期的长度相等。当语音为清音时，我们假定激励信号为一个零均值、单位方差的平稳白噪声过程。采用自相关解法时，浊音的模型增益为 (23) 清音计算模型增益的公式和浊音相同。三、实验结果(参考) 我们使用的原始语音为“北风”，采样频率为11000Hz,运行程序见附录。在这里我们取第30帧进行观察，线性预测阶数为12，看到图3.1所示的原始语音帧的波形，预测语音帧波形和它们之间预测误差的波形。图3.2为原始语音帧和预测语音帧的短时谱和LPC谱的波形图3.1 原始语音帧、预测语音帧和预测误差的波形图3.2 原始语音帧和预测语音帧的短时谱和LPC谱的波形这里我们可以改变线性误差的阶数来观察语音帧的短时谱和LP谱的变化情况，如图3.3。图3.3 预测阶数对语音帧短时谱和LPC谱的影响从图中可以看出，P越大，LPC谱越能反映出语音短时谱的细节部分，但LPC谱的光滑度随之下降。由于我们的目的只是用LPC谱反映声道综合效应的谱的表示式，而具体的谐波形状是通过激励谱来控制的，因此LPC谱只要能够体现出语音的共振峰的结构和谱包络就可以，因此从计算复杂性的角度分析，预测阶数P应该适中。图3.4是原始语音和预测误差的倒谱波形，我们可以从中计算出原始语音的基音周期。从图中看出两峰值之间的间隔为40点左右，基音周期为40/11000=3.6ms，频率为278Hz左右。图3.4 原始语音和预测误差的倒谱波形图3.5给出了原始语音的语谱图和预测语音的语谱图，通过比较发现，预测语音的预测效果还可以，基音频率相差无几。图3.5 原始语音的语谱图和预测语音的语谱图三、附录（LPC分析参考程序） MusicSource = wavread('bei'); Music_source = MusicSource'; N = 256; % window length，N = 100 -- 1000; Hamm = hamming(N); % create Hamming window frame = input('请键入想要处理的帧位置 = '); % origin is current frame origin = Music_source(((frame - 1) * (N / 2) + 1):((frame - 1) * (N / 2) + N)); Frame = origin .* Hamm'; % %Short Time Fourier Transform % [s1,f1,t1] = specgram(MusicSource,N,N/2,N); [Xs1,Ys1] = size(s1); for i = 1:Xs1 FTframe1(i) = s1(i,frame); end N1 = input('请键入预测器阶数 = '); % N1 is predictor's order [coef,gain] = lpc(Frame,N1); % LPC analysis using Levinson-Durbin recursion est_Frame = filter([0 -coef(2:end)],1,Frame); % estimate frame(LP) FFT_est = fft(est_Frame); err = Frame - est_Frame; % error % FFT_err = fft(err); subplot(2,1,1),plot(1:N,Frame,1:N,est_Frame,'-r');grid;title('原始语音帧vs.预测后语音帧') subplot(2,1,2),plot(err);grid;title('误差'); pause %subplot(2,1,2),plot(f',20*log(abs(FTframe2)));grid;title('短时谱') % % Gain solution using G^2 = Rn(0) - sum(ai*Rn(i)),i = 1,2,...,P % fLength(1 : 2 * N) = [origin,zeros(1,N)]; Xm = fft(fLength,2 * N); X = Xm .* conj(Xm); Y = fft(X , 2 * N); Rk = Y(1 : N); PART = sum(coef(2 : N1 + 1) .* Rk(1 : N1)); G = sqrt(sum(Frame.^2) - PART); A = (FTframe1 - FFT_est(1 : length(f1'))) ./ FTframe1 ; % inverse filter A(Z) subplot(2,1,1),plot(f1',20*log(abs(FTframe1)),f1',(20*log(abs(1 ./ A))),'-r');grid;title('短时谱'); subplot(2,1,2),plot(f1',(20*log(abs(G ./ A))));grid;title('LPC谱'); pause %plot(abs(ifft(FTframe1 ./ (G ./ A))));grid;title('excited') %plot(f1',20*log(abs(FFT_est(1 : length(f1')) .* A / G )));grid; %pause % % find_pitch % temp = FTframe1 - FFT_est(1 : length(f1')); % not move higher frequnce pitch1 = log(abs(temp)); pLength = length(pitch1); result1 = ifft(pitch1,N); % move higher frequnce pitch1((pLength - 32) : pLength) = 0; result2 = ifft(pitch1,N); % direct do real cepstrum with err pitch = fftshift(rceps(err)); origin_pitch = fftshift(rceps(Frame)); subplot(211),plot(origin_pitch);grid;title('原始语音帧倒谱(直接调用函数)'); subplot(212),plot(pitch);grid;title('预测误差倒谱(直接调用函数)'); pause subplot(211),plot(1:length(result1),fftshift(real(result1)));grid;title('预测误差倒谱(根据定义编写，没有去除高频分量)'); subplot(212),plot(1:length(result2),fftshift(real(result2)));grid;title('预测误差倒谱(根据定义编写，去除高频分量)'); 实验四基于VQ的特定人孤立词语音识别研究一、实验目的矢量量化（Vector Quantization）是一种极其重要的信号压缩方法，是自70年代末才发展起来的。它广泛应用于语音编码、语音识别与合成、图象压缩等领域。VQ在语音信号处理中占有十分重要的地位。许多重要的研究课题中，特别是低速语音编码和语音识别的研究中，VQ都起着非常重要的作用。量化可以分为两大类：一类是标量量化，另一类是矢量量化。标量量化是将取样后的信号值逐个地进行量化，而矢量量化是将若干个取样信号分成一组，即构成一个矢量，然后对此矢量一次进行量化。当然，矢量量化压缩数据的同时也有信息的损失，但这仅取决于量化的精度。矢量量化是标量量化的发展，可以说，凡是要用量化的地方都可以应用矢量量化。本实验要求掌握矢量量化的原理，会利用已学的相关语音特征，构建语音特征矢量，然后利用VQ技术，编写训练VQ码表的程序，并在此基础上利用所学的语音识别技术，编程实现基于矢量量化的特定人孤立词语音识别，要注意的是识别过程中语音端点如何检测，从识别的实时性角度出发，建议能利用VC技术实现。二、实验原理 1 矢量量化 1）基本原理矢量量化的过程是：将语音信号波形的K个样点的每一帧，或者有K个参数的每一参数帧，构成K维空间中的一个矢量，然后对这个矢量进行量化。通常所说的标量量化，也可以说是K=1的一维矢量量化。矢量量化的过程与标量量化相似。在标量量化时，在一维的零至无大值之间设置若干个量化阶梯，当某输入信号的幅度值落在某相邻的两个量化阶梯之间时，就被量化为两阶梯的中心值。而在矢量量化时，将K维无限空间划为M个区域边界，然后将输入矢量与这些边界进行比较，并被量化为“距离”最小的区域边界的中心矢量值。 2）、失真测度设计矢量量化器的关键是编码器的设计，而译码器的工作仅是一个简单的查表过程。在编码的过程中，需要引入失真测度的概念。失真是将输入信号矢量用码书的重构矢量来表征时的误差或所付出的代价。而这种代价的统计平均值（平均失真）描述了矢量量化器的工作特性。在矢量量化器的设计中，失真测度的选择是很重要的。失真测度选用的合适与否，直接影响系统的性能。要使所选择的失真测度有实际意义，必须具备以下几个条件：在主观评价上有意义，即最小的失真应该对应与好的主观语言质量；易于处理，即在数学上易于实现，这样可以用于实际的矢量量化器的设计；平均失真存在并且可以计算。 2 LBG算法算法是由Linde，Buzo和Gray在1980年首次提出的，常称为LBG算法。它是标量量化器中Lioyd算法的多维推广。整个算法实际上就是反复迭代的过程，既用初始码书寻找最佳码书的迭代过程。它由对初始码书进行迭代优化开始，一直到系统性能满足要求或者不再有明显的改进为止。这种算法既可以用于已知信号源概率分布的场合，也可以用于未知信号源概率分布的场合，但此时要知道它的一系列输出值（称为训练序列）。由于通常语音信号的概率分布随着各种应用场合的不同，不可能事先统计过，因而无法知道它的概率分布。所以目前多用训练序列来设计码书和矢量量化器。 3 语音识别语音识别是研究使机器能够准确地听出人的语音内容的问题，即准确的识别所说的语音。语音识别是近二三十几年发展起来的新兴学科，在计算机、信息处理、通信与电子系统、自动控制等领域中有着广泛的应用。运用语音识别技术，人们设计了各种语音识别系统。有的已经应用于实际，有的还处在研究阶段。其中对孤立词的识别，研究的最早也最成熟，目前，对孤立词的识别无论是小词汇量还是大词汇量，无论是与讲话者有关还是与讲话者无关，在实验室中的正识率已经达到95%以上。这种系统存在的问题最少，因为单词之间有停顿，可以使识别问题简单化；且单词之间的端点检测比较容易；单词之间的协同发音影响也可以减至最低；对孤立词的发音都比较认真。由于此系统本身用途广泛，且其许多技术对其他类型系统有通用性并易于推广，所以稍加补充一些知识就可用于其他类型系统（如在识别部分加用适当语义信息等，则可用于连续语音识别中）。采用矢量量化技术主要用于减少计算量，应用于特征处理可减少特征的类型从而减少计算量，也可以推广应用到摸板的归并压缩。其主要工作就是聚类，即在特征空间中合理的拟定一组点（称为一组聚类中心或码本），每个中心称为码字。于是特征空间中任一点均可按最小距离准则用码本之一来代表。不管用何种语音识别方法，主要过程由两部分组成，一是训练，一是识别。在进行训练时，用观察的序列训练得到参考模型集，每一个模型对应于摸板中的一个单词。在进行识别时，为每一个参考模型计算出产生测试观察的概率，且测试信号（即输入信号）按最大概率被识别为某个单词。要实现上面的隐马尔可夫模型，模型的输入信号必须取自有限字母集中的离散序列，也就是说，必须将连续的语音信号变为有限离散的序列。例如若模型的输入信号为LPC参数这样的矢量信号，那么用矢量量化完成上述的识别过程是非常合适的。下面是VQ/HMM孤立单词识别的方框图。图中矢量量化器作为整个识别系统的一个前处理器。三、实验结果就算法模型方面而言,需要有进一步的突破。目前能看出它的一些明显不足,尤其在中文语音识别方面,语言模型还有待完善,因为语言模型和声学模型正是听写识别的基础,这方面没有突破,语音识别的进展就只能是一句空话。目前使用的语言模型只是一种概率

                    本文档为【数字语音信号处理】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

数字语音信号处理

你可能还喜欢