一种基于小波包的语音信号特征提取方法研究
: 1009 , 2552( 2012) 06 , 0158 , 03 : TN912, 34 : A 文章编号中图分类号文献标识码
一种基于小波包的语音信号特征提取方法研究
王彪
( ) ,721013宝鸡文理学院数学系宝鸡
: ,。 摘 要为了提高语音信号的识别率提出了一种基于小波包的语音信号特征提取方法该方
,,, 法先对语音信号进行适当尺度的分解求得各尺度的频谱在此基础上得到各尺 度信号能量
DCT 。。 ,再通过 变换获得最后的特征参数通过仿真实验说明了新特征参数取得了较高的识别率
: ; ; ; ; 关键词特征提取小波包变换分解能量语音信号
A speechs ignal feature extraction method based on wavelet packet
WANG Bao i
( Mathematics Department,Baoji University of Arts and Sciences,Baoji 721013,China) Abstract: Speech signals is decomposed in appropriate scale of this method,each scale spectrum is obtained,and the energy of each scale signal is getted on this basic,then the final feature parameteris obtained through theD CT transform, The new feature parameter b toains the high recognition rate is explained through thes imulation experiments,
Key words: feature extraction; wavelet packet transform; decomposition; energy; speech signals
,3, 0 1引言小波包变换
,( Wavelet Packet Transform) 语音识别技术是新世纪一门十分热门的技术 小波包变换可以看
,成是函数空间逐级正交剖分的扩展能够为信号提 , 涉及多个领域在社会生活中具有举足轻重的重要,供一种更加精细的分析方法它将频带进行多层次 。意义而语音信号特征参数又是语言识别领域的重 ,划分对多分辨率分析没有细分的高频部分进一步 ,中之重选取良好的特征参数有助于提高语音识 ,,分解并能够根据被分析信号的特征自适应地选择 。别率 ,,, 相应频率使之于信号频谱相匹配从而提高了时 频,,语音信号是一种短时平稳信号即时变的十分 ,。分辨率因此小波包变换具有更广泛的应用价值 ,,、复杂携带很多有用的信息这些信息包括语义个 ,关于小波包变换的理解这里以一个三层的分
,人特征等等其特征参数的准确性和唯一性将直接 ,1 。解进行说明其小波包分解树如图 所示
,影响语音识别率的高低并且这也是语音识别的基
,1,。础特征参数应该能够比较准确地表达语音信
,。号的特征具有一定的唯一性
小波包变换可以对语音信号高频部分提供比较
,2,,,, 精密的分解而且这种分解既无冗余也无疏漏
,。因此在对语音信号进行各种处理中应用较为广泛 ,为提高语音识别率提出了一种基于小波包的 1 图 小波包分解树,语音信号特征提取方法本文方法提取的特征参数 ,,具有唯一性且是数字化的在一定程度上提高了语 : 2011 , 12 , 15 收稿日期。音信号的识别率 : ( 1982 ,) ,,,,作者简介王彪男助教硕士研究方向为网络通信与 。多媒体
— 158 —
( t ) ( k ), 1 ,A ,D , h 图 中表示低频表示高频末尾的序号由 唯 一 确 定所 以 又 称由于 φ
( ) 。数表示小波包分解的层数即尺度数分解的关 , u( t) ,( k) h。为关于序列 的正交小波包 n nZ? +:系为 1, 2 小波包算法S = AAA3 + DAA3 + ADA3 + DDA3 + AAD3 + n n n g( t) ,g( t) U设 ?则 可以表示为 jjjDAD3 + ADD3 + DDD3 nj,nj g ( t)= du( 2 t ,) ( 7)l ?l n j l 1, 1 小波包定义 j + 1,nj,2n: d, , d, , 小 波 包 分 解 算 法由 求和2 l l ( R),L= 在多分辨分析中W , 表明多分辨? jj,2n + 1 jZ ?, d,,即 l2 Hilbert L( R)j 分析是按照不同的尺度因子 把 空间 j,2nj +1,n dd= a ?lk ,2l kW( j Z) 。W,分解为所有子空间 ?的正交和其中j j k ( 8)( t) ( ) 。为小波函数 ψ的闭包小波子空间现在进一 , j,2n +1j +1,n dd= b ?lk ,2l kW步对小波子空间 按照二进制分式进行频率的细 j k j,2nj,2n + 1,。分以达到提高频率分辨率的目的 : , d, , d, 小 波 包 重 构 算 法由 与 求 l l j + 1,n V一种自然的做法是将尺度子空间 和小波子 j , d,即 l
j + 1,nj,2nj,2n + 1 n d=,( 9),hd+ gd l?l ,2k k l ,2k kWU,空间 用一个新的子空间 统一起来表征若令 j j k0 U= V1, 3 分解尺度和小波包基函数选择 jj jZ ( 1)? 用小波包对语音信号进行分解要选择合适的分 1,= WU j j,解尺度和小波包基函数分解尺度的确定与分析信 Hilbert V= VW,则 空间的正交分解 即可? j + 1 j j ,4,n 。 号的主要频段和采样频率有关 U:用 的分解统一为 j , 001对于同一个语音信号来说用不同的小波包基 U= UUjZ( 2)? ? j + 1 jj ,函数进行分解将得到不同的结果所以在用小波包 n ( t) ,的闭包空间而 Uu定义子空间 是函数 jn,对信号进行分解时要根据不同的信号的特征来选 2n U( t) ( t) u,u是函数 的闭包空间并令 满足下面 ,。j2n n 择一个最好的小波包基用来表示信号特点对分
: ,的双尺度方程析语音信号的特征来说选取的小波包基函数需要
,在时域和频域均具有一定的局部分析能力并且在 u( t) = 2h( k) u( 2t ,k )2n 槡?n kZ ?,时域具有紧支性在频域具有快速衰减性至少具有 ( 3), 。一阶消失矩良好的分解与重构性满足上述要求的 u( t) = 2( k) u( 2t ,k )g 2n +1 槡?n kZ ?Daubeches Symets Cofets i、lil常用小波有 小波小波和 k g( k) ,1 ) h ( 1 ,k ) ,,= (式中即两系数也具有正。小波等
。( 3) n = 0 ,交关系当 时式直接给出
u( t) = hu( 2t ,k )0 ?k 0 2 基于小波包的特征提取kZ ? ( 4)小波包变换是在多分辨率分析的基础上发展起 , u( t) = gu( 2t ,k ) 1 ?k 0 k?Z , 来的一种更加精细的分析方法它不但能够对信号
( t) ( t) ,与在多分辨分析中φ 和 ψ 满足双尺度,进行低频分析而且能同时对高频信号进行多层次
,,:的分析对频率带进行多层次的划分并能够根据被 方程
,,2分析的信号的特征自适应地选择相应频带使之与 , ,( t) = h( 2t ,k )φφl? h ?k k k ?Z ,4,k?Z ,。信号频谱相匹配从而提高时频分辨率 ( 5), 2应用小波包变换对语音信号进行特征参数提 , ,( t) = g( 2t ,k )lψφ? g ?k k k ?Z kZ ?,:取其步骤如下 ( t) u( t) ,u相比较和 分别退化为尺度函数 0 1 ?先按照前面所述选取合适的分解尺度和小波
( t) ( t) 。( 4) ( 2 ) φ和小波基函数 ψ式是式的等价表,。包基函数对信号进行所确定尺度上的分解文中
。( ) n Z 示把这种等价表示推广到 ?非负整数的 + S ,对输入的语音信号 进行四层小波包分解小波包
,( 3) 情况即得式的等价表示db1 ,2 基函数选取为 小波得到其分解树结构如图
n2n + 1n。所示 = UU( jZ; nZ )( 6)U??? j + 1 jj +
,( i,j) i ( i = 0,1,j 图中表示第 层的第 个结点( 3) , u( t) ,( n Z ) 由式构造的序列 其中 ?称 n + 2,4; j = 0,1,…,15 ) ,。每个结点都代表一定的特征 u( t) = ( t) 。 为由基函数 φ 确定的正交小波包当0 — 159 — n = 0 ,( 4) 。时即为式的情况
。S4j( j = 0,1,…, ?计算各尺度信号的能量设
15) 4j( j = 0,1,…,15) ,E对应的能量为 则有
n2 2 dt = S4j( t)x( 10)E4j = ?? jk k = 1
( j = 0,1,…,15; k = 1,2,…,n) ,x其中表示重构信 jk
S4j 。号 的离散点的幅值
? 对 各 尺 度 信 号 能 量 进 行 离 散 余 弦 变 换
( DCT) ,。求得最终特征参数
( 2 j + 1 ) π t= cEcos,j = 0,1,…,15( 11) 4j j 4j 32
1 ,j = 0 16 槡2 图 小波包四层分解树结构c=t,,其中系数 组成所有 j 4j 1 , j = 1,2,…,15,: ( 0,0 ) S,( 4,0 ) 结点表示原始语音信号 结点比如8 槡0 ,。表示第四层第 个结点的系数其他类似 , 每帧语音信号的特征参数的列向量因此特征参数,?对每个尺度上的信号进行单尺度重构计算 16 T。:是具有 维分量的向量 如下 ,。 其频谱分析每个尺度上语音信号的详细频谱情况
T = ,t ,t ,t ,t ,t ,t ,t ,t ,t ,t ,t ,( 4,0 ) S40 ,S415 以 表示结点的小波包重构信号表 40 41 42 43 44 45 46 47 48 49 410
( 4,15 ) 。 ,t ,t ,t ,t ,t ,示结点的小波包重构信号其他类似因 411 412 413 414 415
,S :此原始信号 可以表示为 3MATLAB 仿真实验
S = S40 + S41 + S42 + S43 + S44 + S45 + S46 + ,用普通计算机麦克风录入说话人的语音将其
S47 + S48 + S49 + S410 + S411 + S412 + S413 + S414 + , wav ,“1 ”“2 ”, wav 保存为文件以汉语拼音和的文
S415 ,。件为例进行说明对语音信号进行四层小波包分
,db1 。解小波包基函数选取为 小波下面是汉语拼 在有关语音频率分布的研究中发现汉语语音的
12 “”“”音和的声音文件经小波包处理后得到的各 400Hz :5 kHz 。, 频率范围只需要考虑 就够了因此
。尺度分解的重构波形信号及其对应的频谱 S4j( j = 0,1,…,15 ) 16 可以将提取的 个频率成分所
1 。代表的频率范围及中心频率设置如表 所示
1 表 各频率成分所代表的频率范围及中心频率
重构信号频率范围中心频率
S40: 300HzHz0 150 S41 300 : 600Hz 450Hz S42 600 : 900Hz 750Hz S43 900 : 1200Hz 1050Hz 3 1“” 图 语音经小波包分解后各尺度重构波形及其频谱
S441200 : 1500Hz1350Hz
S451500 : 1800Hz1650Hz
S461800 : 2100Hz1950Hz
S47: 2400HzHz2100 2250 S48 2400 : 2700Hz 2550Hz S49 2700 : 3000Hz 2850Hz S410 3000 : 3300Hz 3150Hz 24 “” 经小波包分解后各尺度重构波形及其频谱图 语音S411 3300 : 3600Hz 3450Hz 1“”语音信号文件的特征参数为S412 3600 : 3900z 3750z HHT= ,0, 754151 0, 213222 0, 181133 0, 063017 1 S413 3900 : 4200Hz 4050Hz 0, 056789 0, 034587 0, 14067 0, 054994 0, 027655 S414 4200 : 4500Hz 4350Hz 0, 015165 0, 062841 0, 024243 0, 017065 0, 026424 S415 4500 : 4800Hz 4650Hz 0, 059674 0, 032933,( ) 163 下转第 页
— 160 —
: 2 如图 仿真时序所示 3OSERDES , 在硬件验证平台上实现 1: iobclk 事件 在串行时钟 的上升沿和下降沿 ISERDES 并统计误帧率sData,均采样串行数据 此时刻采样到的串行数据 UWB ,LVDS 在 硬件验证平台上通过专用的 线 : 000001;为 OSERDES ,I SERDES ,8 1: 6 缆把 连接起来形成 路 2: clkdiv ,事件 在并行时钟 有效后再经过三个 6: 1 ,串并转换和 并串转换之间的回环误帧率统计 obck ,6 pd ;il周期的延迟位的并行数据 输出 :如下 3: pd 000010; 事件 并行数据 输出的数据为 在 40MHz ,UWB OS- 在 时钟下平台上统计低速 ,经过一个右 移位操作得到我们想要的并行数据 ERDES ,I SERDES ,1 。的误帧率如表 所示 pds,pds : 000001。此时采样到的 为
1 表 低速误帧表
251 × 6bit× 6bit× 6bit× 6bit65531 16777211 4294967291 发送的数据总量
接收到的数据总量 接251 × 6bit 65531 × 6bit 16777211 × 6bit 4294967291 × 6bit 收到的正确数据总量 251 × 6bit 65531 × 6bit 16777211 × 6bit 4294967291 × 6bit 接收到的错误数据总量 0 0 0 0 正确率100% 100% 100% 100%
, SERDES ,2 132MHz ,UWB OSERDES I。在 时钟下平台上统计高速 的误帧率如表 所示
2 表 高速误帧表
发送的数据总量× 48bt65531 × 48bt16777211 × 48bt4294967291 × 48bt251 iiii接收到的数据总量 251 × 48bt× 48bt× 48bt× 48bti65531 i16777211 i4294967291 i 251 × 48bit 65531 × 48bit 16777211 × 48bit 4294967291 × 48bit 接收到的正确数据总量 0 0 0 0 接收到的错误数据总量 100 100 100 100 %%%% 正确率
: 参 考 文 献 4 结束语,1, , FPGA ,,仲建锋胡庆生孙远基于 的多路高速串并转换器设 ,2 ,OSER-1 从表 的数据统计结果可知输入 J,, ,2008,31( 2) ,电子器件 ,计
,2, Xilinx Inc, Virtex-5 FPGA User Guide,Z,, UG190( v4, 5) Jan, 9, DES ISERDES , 的源数据和 输出的目标数据两者相
2009( 351) , 。,I SERDES ,OSERDES 同说明 回环工作正常
设计
领导形象设计圆作业设计ao工艺污水处理厂设计附属工程施工组织设计清扫机器人结构设计
: 责任编辑张禹 。实现了串并转换功能并且可以无差错的高速传输
櫀櫀櫀櫀櫀櫀櫀櫀櫀櫀櫀櫀櫀櫀櫀櫀櫀櫀櫀櫀櫀櫀櫀櫀櫀櫀櫀櫀櫀櫀櫀櫀櫀櫀櫀櫀櫀櫀櫀櫀櫀櫀櫀櫀櫀櫀
( ) 160 上接第 页,, 唯一的这必然将减小识别语音的误差有效地提高
“2”语音信号文件的特征参数为 ; MATLAB 最后通过 仿真实验说明了用 语音识别率
T= ,1, 282619 2, 268418 0, 816716 1, 192247 ,本文方法提取的特征参数确实是唯一的并且其在 2
。0, 388655 0, 553039 0, 203088 0, 368951 0, 190211 一定程度上提升了语言识别率
0, 271805 0, 099398 0, 179092 0, 060237 0, 10084 ,,当然文中的研究还不完善有很多问题亟待解
0, 034165 0, 068013, ,: 决比如目前只是说明汉语拼音的特征参数是唯一
: 1 “” 通过上面的仿真实验可以得出汉语拼音,的能否进一步使其更加准确地表征普通汉语以及 2“”,和的特征参数显然是不同的用上述方法得出 ,如何将提取的特征参数更加有效的利用这都是今 ,其他汉语拼音的特征参数也是不相同的这充分说 。后要研究的课题 , 明本文所构造的语音信号的特征参数具有唯一性 :参 考 文 献,将一定程度上减小语音识别时的误差有效地提高 ,1, , MFCC VQ J,, ,,王伟邓辉文基于 参数和 的说话人识别系统仪 。语音识别率 2006,27( 6) : 2253 , 2255,,器仪表学报
,2, , M,, : 2005,,,孙延年小波分析及其应用北京机械工业出版社
,3, ,, MATLAB 6, X ———胡昌华等基于 的系统分析与设计小波分 4 结束语,J,, 2004( 1) ,析
,4, , 付元杰基于时频能量分析的声发射特征信号的提取方法研 ,、、本文首先介绍了小波包变换包括定义算法
; 分解尺度和小波包基函数的选择然后应用小波包D,, : 2006, : ,,究广西大学广西大学责任编辑么丽苹,变换提取语音信号的特征参数由于此特征参数是
— 163 —