首页 基于MATLABGUI的语音信号特征提取系统设计

基于MATLABGUI的语音信号特征提取系统设计

举报
开通vip

基于MATLABGUI的语音信号特征提取系统设计 第 39卷 第 4期 河 北 工 业 大 学 学 报 2010年 8月 Vol.39 No.4 JOURNAL OF HEBEI UNIVERSITY OF TECHNOLOGY August 2010 文章编号:1007-2373 (2010) 04-0014-05 基于 的语音信号特征提取系统设计 王光艳 1,2,赵晓群 3,王 霞 1 ( 1. 河北工业大学 信息工程学院,天津 300130;2. 天津商业大学 信息工程学院,天津 300134;3. 同济大学 电子与信息工 程学院,上海 20009...

基于MATLABGUI的语音信号特征提取系统设计
第 39卷 第 4期 河 北 工 业 大 学 学 报 2010年 8月 Vol.39 No.4 JOURNAL OF HEBEI UNIVERSITY OF TECHNOLOGY August 2010 文章编号:1007-2373 (2010) 04-0014-05 基于 的语音信号特征提取系统设计 王光艳 1,2,赵晓群 3,王 霞 1 ( 1. 河北工业大学 信息工程学院,天津 300130;2. 天津商业大学 信息工程学院,天津 300134;3. 同济大学 电子与信息工 程学院,上海 200092) 摘要 语音信号的典型时频特性和核心处理算法是语音识别、合成和说话人识别等系统中的关键问题.结合线性 预测 分析 定性数据统计分析pdf销售业绩分析模板建筑结构震害分析销售进度分析表京东商城竞争战略分析 技术(LPC)和美尔倒谱参数(MFCC)的算法原理,基于 MATLAB GUI 技术,设计完成了语音信号 典型特征提取系统的界面平台,可实现语音信号的装载、播放和波形显示,LPC 和 MFCC 的计算结果显示和数 据存储等功能.界面的人机交互性好,操作简单方便,可提高对算法或数据处理效果的直观认识,对语音信号分 析和处理等各个研究领域具有重要的现实意义. 关 键 词 语音信号;线性预测分析(LPC);美尔倒谱系数(MFCC);MATLAB GUI 中图分类号 TN912.34 文献标识码 A Design of the Features Extraction System for Speech Signal Based on MATLAB GUI WANG Guang-yan1,2, ZHAO Xiao-qun3, WANG Xia1 ( 1. School of Information Engineering, Hebei University of Technology, Tianjin 300130, China; 2. School of Information Engineering, Tianjin University of Commerce, Tianjin 300134, China; 3. College of Electronics and Information Engineering, Tongji University, Shanghai 200092, China ) The typical time-frequency characteristics of speech signal and the core algorithms are the key problems in spe- ech recognition, speech synthesis and speaker recognition system. According to the algorithm principles of linear pre- diction coding (LPC) theory and Mel frequency cepstrum coefficient (MFCC), a features extraction system platform for speech signal based on MATLAB GUI was implemented. On this platform, the speech signal in different audio formats can be loaded and played, and the waveform of the loaded speech signal can be displayed. Furthermore, the calculated results of LPC and MFCC can be displayed on the interface. At the same time, the data results can be saved in the corre- sponding files. The system supplied friendly human computer interaction and easy operation. The designed system will provide important and intuitive auxiliary effect on verifying the algorithms and data processing efficiency for the research fields related to speech signal processing. speech signal; linear prediction coding (LPC); Mel frequency cepstrum coefficient (MFCC); MATLAB GUI 0 引言 语音信号是一种冗余度较高的非平稳随机信号,其时频包络是连续变化的,并具有短时平稳性、间歇性 等重要特性 [1].语音信号的这些性质和特点,可通过分析和观测语音信号的波形和频谱得到较为直观科学的 认识.应用线性预测编码技术(LPC)能够极为精确的估计语音参数,可以用少量的参数准确有效地表示语 音的波形和频谱特性 [1-2].采用LPC技术所构建的具有优良性能的声道模型,不仅意味着LPC技术是一种高 效的语音编码方法的基础,而且也意味着预测系数是语音识别中非常重要的信息来源.倒谱是基于人耳听觉 模型的语音特征参数,而基于听觉特性的美尔倒谱系数(MFCC)是语音识别和说话人识别系统中广泛采用 收稿日期:2009-09-03 基金项目:天津市高校科技发展基金资助项目(20080710) 作者简介:王光艳(1975-),女(汉族),博士生,讲师. 15王光艳,等:基于MATLAB GUI的语音信号特征提取系统设计第 4期 的重要参数之一,取得了较为精确的识别效果,详见文献 [3-4]. MATLAB是使用最为广泛的科学计算软件之一,具有强大、丰富的内置函数和工具箱 [5].其版本升级到 6.5以后,为用户提供了较为方便的设计、修改图形用户界面(GUI)的专用工作台,用户调用 GUI 设计工 作台,就可以设计自己的图形用户界面.与VC等其他编程语言相比,MATLAB GUI设计同样采用了面向对 象技术,特别是对于有大量数值运算和图形图像处理的程序,具有很大优势,界面设计时更加简洁、快捷与 直观.语音信号特征提取系统界面在MATLAB 7.6环境下,基于GUI技术设计实现,可完成语音信号的装载、 播放和波形显示,及其典型语音处理技术和参数提取算法的实时显示和数据存储等基本功能. 1 语音信号典型特征和分析技术 波形表示和参数表示是描述语音信号的两种典型方式.通过观察波形和试听,实现对语音信号的直观认 识;通过提取相关的语音参数特征,实现对语音信号的深入分析,以及语音识别、说话人识别系统中的特征 匹配. 1.1 LPC算法原理 LPC技术的基本思想是:语音信号的每个取样值,可以用它过去的若干个取样值的加权来表示,各加权 系数按照最小均方误差的原则来确定.设语音信号的现在估值为 ,前 个采样值为 1 , 2 ,⋯, .则线性预测的时域表示为 = = 1 (1) 其中: 为加权系数,也即线性预测系数.预测误差 = .使误差 在均方误差最小的条件下, 也即预测残差能量 = 2 最小的条件下,即可求得线性预测系数.线性预测系数的计算方法有自相关 法(Durbin法)、协方差法、格型法等 [1].系统主要采用Durbin法来完成LPC系数的计算.Durbin法的递推 过程如下 0 = 0 = = 1 1 1 / 1 1 = = 1 1 1 = 1 2 1 (2) 上式中分别对 = 1, 2, 3, , 进行递推,得到最终解为 = 1 (3) 递推式中: 是反射系数,也称部分相关(PARCOR)系数,其取值范围是 1 1,反射系数的这个条 件是保证全极点系统 = 1 =1 稳定的充要条件. 基于LPC的语音识别、语音合成、语音编码和说话人识别的大量实践证明:线性预测参数是语音信号特 征表示的良好参数 [1]. 1.2 MFCC算法原理 MFCC是建立在人耳对声音频率的非线性感知基础上,将线性功率谱转化为Mel频率下的功率谱.Mel 频率尺度的值大体上对应于实际频率的对数分布关系,符合人耳的听觉特性.Mel频率与实际频率的具体关 系可表示为 M e l = 2 5 9 5 1 o g ( 1 + 7 0 0 ) (4) 预设语音信号采样率为 8 kHz,三角滤波器组的个数为 24.MFCC的计算过程框图如图 1所示 [2,4],具体 16 河 北 工 业 大 学 学 报 第 39卷 如下: ①将原始的语音信号先经过预加重、分帧、加窗等预处理过程,得到每个语音帧的时域信号 .预加 重的目的是加强语音中的高频成分,公式为 = 1 1 (5) 式中: 为预加重系数,值在 0.9和 1之间,本文取 = 0.937 5. 取帧长为 256(32 ms),帧移为 80(10 ms),为使语音平滑过渡,保持相关性,这里采用汉明窗. ②将时域信号 经过 长的离散傅里叶变换(DFT)后得到线性频谱 . ③将线性频谱 通过Mel频率滤波器组后得到Mel频率,Mel滤波器组为在语音频谱范围内设置的若 干个带通滤波器组,每个滤波器均具有三角形滤波特性,Mel滤波器组的传递函数和滤波特性,详见文献 [2,4,6]. ④ 将三角滤波器组的输出取常见对数,用离散余弦变换(DCT)将滤波器的输出变换到倒谱域,即可 得到各阶MFCC参数. = = 1 2 3 l o g c o s + 12 2 4 = 1 , 2 , , (6) 其中: 为MFCC参数的阶数, 为第 个三角滤波器的输出, ( )为第 维MFCC参数. 根据文献 [7] 所研究的MFCC各阶分量对语音识别的平均贡献,最有用的语音信息包含在MFCC分量的 1 ~ 12 之间,其它谱系数包含的有用信息较少.所以,在求出的各阶MFCC参数后,首先去除直流分量 0 和多余尾帧,然后取剩余各维分量的一阶差分作为 MFCC参数的组合数字特征.差分参数的计算采用如 下公式 [3] = 1 = 2 = + (7) 其中: 为常数,通常取 2,这时差分参数就称为当前帧的前两帧和后两帧的线性组合,由此可将多维参数 ( )变换为一维的组合输出 ( ). 2 MATLAB GUI设计方法 MATLAB GUI 是由各种图形对象如图像窗口、图轴、菜单、按钮、文本框等构建的用户界面,是人机 交流信息的工具和方法.它既能嵌入已有的仿真程序,又能把仿真后的图形化结果以人机交互的动态方式直 观呈现,使用者不需要知道代码的具体内容,只要了解操作步骤即可很方便的操作界面.对于熟悉MATLAB 而不想编写大量VC代码的科研人员来讲,MATLAB GUI无疑是一个最佳选择. MATLAB GUI界面的设计,一般有两种方法,一是直接编写M文件的方式来开发整个GUI;二是通过 MATLAB图形用户界面开发环境GUIDE来形成相应文件.GUIDE为用户提供了一个方便高效的集成环境, 可分为菜单栏和工具栏、用户控件集、用户界面编辑窗口等 3个部分,详见文献 [5].使用GUIDE创建GUI 时,可以将设计好的GUI界面保存为一个FIG资源文件,同时自动生成对应的M文件.该M文件包含了GUI 的初始化代码和组建界面布局的控制代码.由于这种方法比较直观,且在M文件的管理和程序代码的修改上 也比较方便,因此本文采用第 2种方式完成界面设计,设计过程主要包括两大部分,即GUI界面设计和回调 程序的设计.具体制作步骤如下: ①分析主要功能,明确设计任务; 图 1 Mel频率倒谱系数的计算过程 Fig. 1 Calculation process of the Mel frequency cepstrum coefficient 预处理 DFT Mel频率 滤波器组 Log| | 对数能量 DCT 时域 语音信号 频域 倒谱域 17王光艳,等:基于MATLAB GUI的语音信号特征提取系统设计第 4期 ②绘出界面草图,从使用者的角度来审查; ③启动GUIDE,按草图创建静态界面,并进行相应控件的属性设置; ④编写并调试相应对象的回调函数,实现界面的动态功能; ⑤运行界面,进行功能测试. 在设计中,步骤之间往往交叉反复进行,设计和实现过程往往不是一步到位的. 3 仿真界面的设计与实现 3.1 界面功能的规划与设计 要求界面能完成语音信号波形和典型参数特征的实时 显示,其原理框架如图 2所示. 界面的主要功能模块包括:语音信号的装载、波形显 示和回放模块;LPC参数计算和显示模块;MFCC参数的 提取和显示模块.这些操作的结果分别通过屏幕、文件以 及提示等进行显示或保存,提供统一的输入输出操作接口, 不同算法计算结果可在不同目录下保存.界面上主要划分 了两个功能显示区,每个功能区通过调用“Panel”控件来 完成.第 1个功能区主要用来完成语音信号的装载、回放 和波形显示;第 2个功能区完成LPC或MFCC参数的提取 和显示,由于二者的参数提取和结果显示过程类似,故可 共用一个工作区,采用按钮来完成具体功能切换. 系统的后台语音资源库主要采用中文语言资源联盟统一开发,并由中科院自动化所承担录制的标准语料 库,所有语音文件,包括字、词和句子,均为在实验室环境下录制的汉语普通话男声和女声发音,16 kHz采 样,16bit编码,双声道输出,存储为*.wav格式.关于语音文件的装载、时域波形显示和播放等功能是通过 直接撰写控件的函数代码来实现的.LPC和MFCC参数的提取等功能模块的实现均是通过调用事先编好的自 定义M文件来完成的,具体程序算法设计均按照 论文 政研论文下载论文大学下载论文大学下载关于长拳的论文浙大论文封面下载 理论叙述部分的算法公式和计算过程来实现的.为后续 参数计算方便,本系统中将语音数据文件格式预设为 8 kHz采样、8 bit编码、单声道输出,这与语音资源库 的格式存在出入,所以,在编写“load file”按钮的回调函数时,补充语音信号格式转换程序,将所有读入 的语音信号均转换为预设的标准格式. 3.2 仿真界面 仿真界面实现了预期的功能要求,如图 3所示为不同语音信号在不同输入参数和功能要求下的输出结 果.图 3a) 和图 3b) 分别为汉语普通话女声发音“他去无锡市,我到黑龙江”的LPC参数和MFCC参数的计 算和仿真结果;图 3c) 为汉语普通话女声发音“广播电台”第 50帧信号的LPC计算结果;图 3d) 为汉语普 通话女声发音“排除万难”的MFCC计算结果.从图中可以看出,“the Origian Speech Signal”面板部分主要 用来完成语音信号的装载、播放、时域波形显示等功能.“spectral of the speech signal”面板部分主要完成语 音信号的LPC参数或MFCC参数的计算结果显示. 系统中的各项计算结果在显示的同时并以mat文件的形式存储于相应目录中,可以用于后续的计算和分析. 从图 3a) 和图 3c) 中两段语音信号的 LPC计算结果中可以看出,帧长为 256,预测阶数为 24,其输出图形中 包含 4个子图.第 1个子图为所选语音帧的原始语音信号波形,主要用于波形显示和对比.第 2个子图为Durbin 算法求得的线性预测系数,即为全极点系统 ( )中数字滤波器的系数 .第 4个子图输出为预测残差能量波 形,主要用于系统 ( )中增益 的计算,无论是对于清音信号还是浊音信号,均有结论公式 = 2,详见文 献 [1].第 3个子图为反射系数 ,从输出结果上可直接看出 1 1,这是保证系统 ( )稳定的充要条件; 而且, 也是格型算法中的基本参数.本系统的计算结果除了可以直接构造出全极点声道模型的传输参数 外,还可进一步用于LPCC(线性预测倒谱)参数和LSP(线谱对)参数的计算.从图 3b) 和图 3d) 中 两段语音信号的 MFCC 计算结果中可以看出,其输出图形中包含 2个子图.第 1个子图为各维分量的一阶差 图 2 语音信号特征提取系统框架 Fig. 2 System framework for speech signal feature extraction 算法修改 语音库 1. 读入语音文件 2. 绘制语音信号波形 3. 播放语音文件 4. LPC参数提取和显示 5. MFCC参数提取和显示 LPC参数计算程序 MFCC参数提取程序用 户 功能补充 18 河 北 工 业 大 学 学 报 第 39卷 分计算结果,第 2个子图为维数与幅值的关系.从图形显示结果上可以对比不同语音段和不同说话人的具体语 音特征,其数据结果直接作为语音识别和说话人识别中的特征参数,完成模板库的训练和建立. 4 结束语 论文简要阐述了语音信号的波形和频谱特征,较为详细地分析了语音信号的线性预测分析和Mel频标倒 谱参数的基本原理和计算方法,基于MATLAB GUI技术,完成了语音信号典型参数提取系统的界面设计和 算法程序的设计.通过系统界面,使用者可以直接装载和试听语音库中的语音资源文件;通过点击相应按 钮,完成LPC参数和MFCC参数提取结果的波形显示和数据存储.系统实现了语音信号处理中的关键技术和 重要的特征参数的计算和显示,可作为语音编码、语音合成、语音识别和说话人识别等语音处理领域的重要 研究和对比验证环节.可通过参数输入改变或控制图形输出,具有良好的人机交互功能.仿真结果以明了生 动的形式跃然于屏幕上,界面直观,操作方便.通过该界面可以非常方便地学习和分析语音信号的典型特征 和基本规律,实现对理论知识的实时验证,同时为新算法的开发验证提供必要的前提. 参考文献: [1] 赵晓群.数字语音编码 [M].北京:机械工业出版社,2007. [2] 李萱.语音特征参数提取方法研究 [D].西安:西安电子科技大学,2006. [3] 于明,袁玉倩,董浩,等.一种基于MFCC和LPCC的文本相关说话人识别方法 [J].计算机应用,2006,26(4):883-885. [4] 王金明,张雄伟.话者识别系统中语音特征参数的研究与仿真 [J].系统仿真学报,2003,15(9):1276-1278. [5] 陈垚光等编著.精通MATLAB GUI设计 [M].北京:电子工业出版社,2008. [6] 谢秋云,肖铁军.语音MFCC特征提取的FPGA实现 [J].计算机工程与设计,2008,29(21):5474-5475,5493. [7] 甄斌,吴玺宏,刘志敏,等.语音识别和说话人识别中各倒谱分量的相对重要性 [J].北京大学学报:自然科学版,2001,37(3):371-378. [责任编辑 代俊秋] 图 3 仿真界面及结果 Fig. 3 Simulation interface and results a) "他去无锡市,我到黑龙江"的LPC参数 b) "他去无锡市,我到黑龙江"的MFCC参数 c) "广播电台"的LPC参数 d) "排除万难"的MFCC参数
本文档为【基于MATLABGUI的语音信号特征提取系统设计】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_058592
暂无简介~
格式:pdf
大小:437KB
软件:PDF阅读器
页数:5
分类:互联网
上传时间:2012-03-30
浏览量:140