首页 动态贝叶斯网络的音视频连续语音识别

动态贝叶斯网络的音视频连续语音识别

举报
开通vip

动态贝叶斯网络的音视频连续语音识别 第30卷第12期 2008年12月 电子与信息学报 JournalofElectronics&InformationTechnology V01.30N0.12 Dec.2008 基于多流多状态动态贝叶斯网络的音视频连续语音识别 吕国云① 蒋冬梅① 张艳宁① 赵荣幸春①HSahli② IlseRavyse@WVerhelst@ ⋯(西北工业大学计算机学院 西安710072) ⋯(布鲁塞尔自由大学电子与信息处理系 布鲁塞尔 B一1050比利时) 摘要:语音和唇部运动的异步性是多模态融合语音识别的关...

动态贝叶斯网络的音视频连续语音识别
第30卷第12期 2008年12月 电子与信息学报 JournalofElectronics&InformationTechnology V01.30N0.12 Dec.2008 基于多流多状态动态贝叶斯网络的音视频连续语音识别 吕国云① 蒋冬梅① 张艳宁① 赵荣幸春①HSahli② IlseRavyse@WVerhelst@ ⋯(西北工业大学计算机学院 西安710072) ⋯(布鲁塞尔自由大学电子与信息处理系 布鲁塞尔 B一1050比利时) 摘要:语音和唇部运动的异步性是多模态融合语音识别的关键问题,该文首先引入一个多流异步动态贝叶斯网络 (MS—ADBN)模型,在词的级别上描述了音频流和视频流的异步性,音视频流都采用了词一音素的层次结构。而多流 多状态异步DBN(MM—ADBN)模型是MS.ADBN模型的扩展,音视频流都采用了词.音素一状态的层次结构。本质 上,MS—ADBN是一个整词模型,而MM.ADBN模型是一个音素模型,适用于大词汇量连续语音识别。实验结果 表明:基于连续音视频数据库,在纯净语音环境下,MM-ADBN比MS—ADBN模型和多流HMM识别率分别提高 35.9l%和9.97%。 关键词:语音识别;动态贝叶斯网络:音视频;多流异步 中图分类号:TP391.42 文献标识码:A 文章编号:1009—5896(2008)12.2906.06 DBNBasedMulti-streamMulti-statesModelforContinue Audio.VisualSpeechRecognition LfiGuo-yun∞JiangDong-meiⅢZhangYan-ning∞ZhaoRong-chun① HSahli②IlseRavyse@WVerhelst⑦ ①(NorthwestemPolytechnicalUniversit可,Schoolo/ComputerScience,Xi’口珏710072,China) ②(川如UniversiteitBrussel,Depn庀me佗tETRO,BrusselB-1050,Belgium) Abstract:Asynchronyofspeechandlipmotionisakeyissueofmulti—modelfusionAudio-VisualSpeech Recognition(AVSR).Inthispaper,aMulti—StreamAsynchronyDynamicBayesianNetwork(MS—ADBN)modelis introduced,whichloosestheasynchronyofaudioandvisualstreamstothewordlevel,andbothinaudiostream andinvisualstream,word-phonetopologystructureisused.However,Multi—streamMulti-statesAsynchronyDBN (MM—ADBN)modelisanaugmentationofMulti-StreamDBN(MS—ADBN)model,isproposedforlarge vocabularyAVSR,whichadoptsword-phone-statetopologystructureinbothaudiostreamandvisualstream.In essential,MS—ADBNmodelisawordmodel,andwhileMM—ADBNmodelisaphonemodelwhoserecognition basicunitsarephones.Theexperimentsaxedoneonsmallvocabularyandlargevocabularyaudio-visualdatabase, theresultsshowthat:forlargevocabularyaudio-visualdatabase,comparingwithMS—ADBNmodelandMSHMM, incleanspeechenvironment.theimprovementsof35.91and9.97%areobtainedforMM-ADBNmodelrespectively, whichshowtheasynchronydescriptionisimportantforAVSRsystems. Keywords:Speechrecognition;DynamicBayesianNetwork(DBN);Audio-visual;Multi-streamasynchrony 1 引言 多模态音视频语音识别是近年来语音信号处理新的研 究热点Ll,ZJ。结合人说话时的唇部视觉特征,可以提高噪声 环境下语音识别的鲁棒性。然而心理声学研究和音视频融合 模型的实验结果表明:虽然人的唇部视觉运动和声音是相关 的,但是并不同步,唇部运动先于语音信号大约120ms左右n 任何音视频联合建模的语音识别系统都应该尽可能考虑这 个事实。 200%06-11收到,2007-11.27改回 中国科技部与比利时弗拉芒大区科技合作项目([2004】487)和西北工 业大学英才培养计划项目(04XD0102)资助课题 对于音视频模型融合的语音识别研究,Potamianos, Nefian等人对状态同步/异步多流HMM,乘积HMM, coupledHMM,factorialHMM等多流HMM进行了 分析 定性数据统计分析pdf销售业绩分析模板建筑结构震害分析销售进度分析表京东商城竞争战略分析 和 识别实验11_引。虽然多流HMM能在一定程度上(状态,音素, 音节)反映音视频流的异步性,但是对中大词汇量的音视频语 音识别,多流HMM仅能采用音素基元来建立模型,限制音 视频流的异步性在音素边界,并不能充分描述音视频流之间 的异步关系。 利用动态贝叶斯网络(DynamicBayesianNetwork, DBN)模型进行语音识别研究是近年来的一个研究热点, DBN能够描述变量之间的概率依赖关系及随时间变化的规 律,适合对复杂的变量关系进行建模。Bilmes,Zweig等人采 万方数据 第12期 吕国云等:基于多流多状态动态贝叶斯网络的音视频连续语音识别 2907 用DBN模型来研究小词汇量的语音识别【4~1。Gowdy建立 了多流DBN模型15J,通过词转移概率的发生迫使音频流和 视频流在词节点同步,然而关于音视频流如何决定词转移的 发生,却没有给出具体的描述。Bilmes给出了一个通用的多 流异步的DBN模型结构【6|,描述了词转移概率和音视频流 相关节点之间的条件依赖关系,但没有给出实验结果。同时 上述模型在本质上都是词模型,识别基元是词,仅适合于小 词汇量的音视频语音识别任务。 本文基于Bilmes提出的多流DBN模型结构,首先把原 模型中的词一状态的构成形式更改为词.音素的构成形式,这 样由于音素由多个词共享,减少了训练 参数 转速和进给参数表a氧化沟运行参数高温蒸汽处理医疗废物pid参数自整定算法口腔医院集中消毒供应 ,本文称之为多 流异步DBN(MS.ADBN)模型。同时在MS.ADBN模型的 音视频流的拓扑结构中各增加了一个隐含的状态节点层,构 成了一个新颖的多流多状态异步DBN(Multi-streamMulti- statesAsynchronyDBN,MM-ADBN)模型。音频流和视频 流都采用了词.音素一状态的层次结构,识别基元为音素,模 型不但描述了词的动态发音过程,而且描述了音素的动态发 音过程,适合对大词汇量进行音视频连续语音识别。 2多流异步DBN模型 2.1 MS.ADBN模型 图1描述了MS.ADBN模型的语音识别结构,在这个模 型中,词(word)和词转移节点(wordtransition)位于模型的上 方,在两个词之间,音频流和视频流各自有独立的音素 (phone),音素位置(phoneposition),观测向量,音素转移概 率以及节点变量之间的条件依赖关系。在音频流和视频流, 每个词都是由它的对应音素构成,相当于具有对词节点的两 个独立的描述,而每个音素和观测向量直接联系。当词转移 发生时,音频流和视频流中的音素位置节点都被强行复位而 迫使音频视频流在词节点同步。而词转移概率由音频流和视 频流的节点变量共同确定,对于确定的词,只有当音频流和 视频流中的音素为在该词中的最后一个音素,并且两流的音 素转移都同时发生时,词转移才会发生。然而MS—ADBN模 型本质上是一个词模型,仅适合于小词汇量数据库的音视频 语音识别。 Word(W) Phonel Position(PPl) Phonel(P1) AudioObs(01 Phone2 Position(PP2) Phone2(P2) Visual0bs(0 摭渤丽 辨刚《 善 悸^ 弋^ 二 ‘ E:ologueChunk 图1 MS—ADBN音视频连续语音识别模型 2.2MM-ADBN模型 为了能对大词汇量进行音视频语音识别,应该采用更小 的识别基元.音素,基于MS—ADBN模型,本文在音视频流 的拓扑结构中都增加了一个隐含的状态节点层,构成 MM—ADBN模型,见图2所示,在音频流和视频流,每个词 由它的对应音素构成,而音素由固定个数的状态描述,状态 和观测向量相联系,它的识别基元是音素,可以满足大词汇 量数据库音视频语音识别的任务。 "Word(W) PhonePosition1 (PPl) Phonel(P1) Statd1 Position (SPl) State2fS21 Visualobsf0 圈2 MM—ADBN音视频连续语音识别模型 图2中圆括号内为对应节点变量的简称,Ⅳ为词节点, wT为词转移概率,P1和P2为音素节点,PPl和PP2表 示音素在词中的位置,PTl和PT2为音素转移概率,S1和 S2为状态节点,SPl和SP2为状态在音素中的位置,STl和 ST2为状态转移概率,01为音频特征观测向量,02为视 频特征观测向量。 下面详细描述了主要节点变量及其条件概率分布 (ConditionalProbabilityDistribution,CPD)。 (1)观测向量节点(0l和D2):01和D2分别为音频特 征向量和视频特征向量,条件概率P(Oxti,t),。为1或2 分别表示音频流和视频流(本文以下部分类同),采用高斯混 合模型来描述。 M , ‰。(∞。)=,(DXtI踟。)=∑u蹦Ⅳ(∞。,‰t,‰。。)(1) m=l 其中u瓯,女为权值,£≈u鼠%=1,M为混合元个数,慨≈为 均值,盯。。为协方差。 (2)状态转移概率(STl和ST2),表示驻留在本状态或转 移到下个状态的概率。 (3)状态节点(STl和ST2):CPD为P(SxtSPx£,Pxt), 是它的父节点SPx和音素R的确定性函数,如果给出了音 ㈣一~嘲 删一嘲 邶㈨一嘲 邮一㈣如“时p雾㈣ ‰ :{||一 ‰眦 眦篱 0 万方数据 2908 电子与信息学报 第30卷 素和状态在音素中的位置,那么具体状态就可以得到。表示为 p(Sxt=JlPxt=i,SPx£=m) fl' J为音素i 的第m个状态 2 10, 其他 ㈣ L (4)状态在音素中的位置节点(SPl和SP2):在初始帧, SPxl为0;在其他时间帧,当有音素转移发生时,表示一个 音素的结束,状态位置SPxi值也复位为0,没有音素转移发 生时,SPx。的值由状态转移(STx+)确定,公式表示为 p(SPxt=JSPx£一1=i,PTx£一1=m,STx£一1=扎) 1, m=1,J=0 1, m=0’n=1,J=i+1 1,m:0,礼:0,J:i (3) 0, 其他 (5)音素节点(P1和P2):是父节点PPx和w的确定性 函数,该函数确定了词和音素之间的详细关系,对于给定的 词,如果给出了音素在词中的位置,那么音素就可以得到。 它的CPD表示为。 p(Px£=Jl彬=i,PPx£=m) 1, J是词i的第m个音素 2 k 其他 (4) (6)音素转移概率(PTl和PT2):本文中,每个音素采 用了4个状态来表示,对于给定的音素(Pz),仅当当前状 态为音素的最后一个状态,并且有状态转移发生时,才会有 音素转移发生,表示为 p(PTxt=引如=a,SPx£=b,STxt=m) 1, J=1,m=l,6为音素a的最后一个状态 1, J=0,m=1,6不是音素a的最后一个状态 0, 其他 (5) (7)音素在词中的位置节点(PPl和PP2):类似于SPl 和SP2,在初始帧,PPxl为0;在其他帧,当有词转移发生 时,表示一个词的结束,PPx。值也复位为0,没有词转移时, PPx,的值由音素转移概率来确定,公式表示为 p(PPxt=JPPxt—l=i,W丑一l=m,PTx£一l=n) 1, m=1,J=0 1, m=0,n=1,J=i+1 1,m:0,礼:0,J:i (6) 0, 其他 (8)i百7转移概率节点(wT):词转移概率由音频流和视频 流共同确定,它有5个父节点,由于每个词的音素构成不同, 需要分别处理,对于给定的词,只有当两个流中的PPx都为 音素在词中的最后一个音素,而且两流中的音素转移概率 PTl和PT2同时都为1时,词转移才会发生。 p(WTt=j限=o,PPl£=b,PP2t=c,PTlz=m,PT2t=扎) 1, J=1,m=1,竹=1,b=lastphonel(a), c=lastphone2(a) 1, J=0and(m≠1orn≠1orb=~lastphonel(a) orc=~lastphone2(a)) 0, 其他 (7) 式中lastphonel(a)和lastphone2(a)分别表示音频流和视频 流中词a的最后一个音素。 (9)词节点(Ⅳ):在初始帧,词由单文法模型unigram(i) 确定,而在其他帧,采用了二元文法模型,当没有词转移发 生时,词保持不变;当有词转移发生时,由当前词转移到下 一个词的概率采用二元文法模型得到。 P(嘭=JI彤一。=i,WE=m) bigram(i,J),m=1 1, m=0,i=j (8) 0, 其他 bigram(i,J)表示由词i转移到J的概率,通过对训练样本进 行统计得到。 3识别实验和结果分析 本文采用GMTK[41和HTK来分别实现本文提到的所有 DBN模型和HMM模型。 3.1音视频数据库 音视频数据库采用西北工业大学一比利时布鲁塞尔自由 大学音视频信号处理联合 实验室 17025实验室iso17025实验室认可实验室检查项目微生物实验室标识重点实验室计划 录制的数字音视频英文数 据库和连续音视频英文数据库。数字音视频数据库中有数字 0-10,涉及到22个音素I[phone),数据库的脚本按照Aurora 2.0语音数据库的句子顺序录制。本文采用100句纯净的音 视频数据作为训练数据,另外50旬以及相应加噪语音的音 视频数据作为测试数据。对于连续音视频数据库,数据库的 脚本采用TIMIT数据库生成,本文采用了600句音视频数 据,包含了1692个词和74个音素。考虑到样本数据相对比 较少,采用.iack—knife策略,把样本分为两部分,循环进行 训练和识别实验,每次采用了500旬纯挣语音的音视频数据 进行训练,另外100句及加噪语音的音视频数据作为测试样 本,最后对6次识别结果进行平均。 3.2音频视频特征提取 音视频特征提取过程见图3,对音频数据,帧速率为100 帧/秒,采用HTK工具包提取音频数据的12维MFCC特征 和能量特征,加上一阶和二阶差分系数,即MFCCDA, 共42维音频特征。 万方数据 第12期 吕国云等:基于多流多状态动态贝叶斯网络的音视频连续语音识别 视频流fAVI Video,25Hz) 视频特征提取 和 硒BTSM瓣Alg硬orittm驯l嬲霪20鬻:)l’l点序列f点 器辫(2何静5Hz鬻60蒿H竺竺竺特征提取 维)I L=~=:⋯‘‘ 视频特征 (100Hzl 音频特征提取[五要要霎互二卜——l!M委F霎C霎C圣D至要A!}_耐I(AvI,Au(1i())广1广吾愿再F。’ (100Hz) 图3音频视频特征提取框图 对于视频数据,帧速率为25帧/秒,首先进行嘴唇检测 和跟踪|7|’然后采用贝叶斯切线形状模型(BayesianTangent ShapeModel,BTSM)算法【”进行唇部特征轮廓点的自动标 注,基于唇部轮廓特征点,提取唇部的几何特征,包括嘴唇 上下左右的张开度(横向和纵向距离),以及张开时的角度共 20维特征,最后和第一帧的视频几何特征相减进行归一化处 理,同时,为了表示口形动态特征,提取了几何特征的一阶 和二阶差分系数,共有60维视频特征。最后,为了和音频 数据的采样率一致,进行线性插值处理。 3.3实验安装和结果分析 为 评价 LEC评价法下载LEC评价法下载评价量规免费下载学院评价表文档下载学院评价表文档下载 模型的性能,本文采用了文献『81中的两个单流 DBN模型:WP。DBN和WPS.DBN模型(分别为MS—ADBN 和MM—ADBN模型相对应的单流DBN模型)。同时采用 HMM模型和多流异步HMM(MSHMM,采用乘积HMM实 现)在相同的实验条件下进行了语音识别实验。 在连续数字音视频语音识别实验中,对于WP—DBN模 型}8j,音素和观测向量相联系,采用1个高斯模型描述,加 上静音和停顿,共有25个高斯模型参数需要训练,对于MS— ADBN模型,则有50个高斯模型参数。而对于WPS—DBN 模型,每个音素由4个状态数构成,状态和观测向量相联系, 共有91个高斯参数,对于MM—ADBN模型,则有182个高 斯模型参数需要训练。对于训练样本,大约每个词平均有60 多个训练样本,每个音素平均有200个样本,模型可以得到 一定的训练,识别结果见表1。 在连续音视频语音识别实验中,WP.DBN模型共有77 个高斯模型参数【引,MS—ADBN模型则有154个高斯模型参 数。而对于WPS—DBN模型,共有299个高斯参数,对于 MM.ADBN模型,则有598个高斯模型参数需要训练。对于 训练样本,大约每个词平均约3个训练样本,所以WP。DBN 模型和MS。ADBN模型不能得到充分{;f}|练,而每个音素大约 有超过300个样本,WPS.DBN模型和MM.ADBN模型可 以得到一定的训练,识别结果见表2。 从表1和表2的结果可以得出下述结论: (1)由于结合了语音的视觉特征,多流模型的性能明显优 于对应的单流模型,对于数字音视频数据库,在信噪比为 0-30dB的测试环境下,MSHMM,MS—ADBN模型和 MM—ADBN模型比对应的单流模型(HMM,WP.DBN和 WPS—DBN模型)识别率平均提高6.03%,6%和7%。而对于 连续音视频甄据库,在纯净语音环境下,识别率分别提高了 1.86%,2.57%和5.61%,说明由于视觉特征的辅助作用,提 高了系统的识别性能及对噪声的鲁棒性。 (2)对于数字音视频数据库,在信噪比为0-30dB的测试 环境下,MS.ADBN模型的识别率比MSHMM的识别率平 均高9.93%。对于连续音视频数据库,MM—ADBN模型的识 别率都高于MSHMM的识别率,纯净语音下,识别率提高 了9.97%。因为MS—ADBN模型和MM-ADBN模型在单词 之内描述了音频视频流的异步性,而MSHMM模型限制音 频视频流在音素边界同步。结果表明了音视频异步性的描述 对多模态语音识别的重要性。 表1 数字音视频数据库:实验系统和词识别结果 万方数据 2910 电子与信息学报 第30卷 (3)对于数字音视频数据库,基于音频视频特征的WPS— DBN模型和MM—ADBN模型的识别率分别低于WP—DBN 模型和MS—ADBN模型的识别率;相反,对于连续音视频数 据库,识别率优于WP—DBN和MS—ADBN模型,在纯净语 音环境下,识别率分别提高了35.2%和35.91%。因为在数字 音视频数据库下,wP—DBN和MS—ADBN模型可以得到充 分的训练,词基元模型优于音素基元模型,而在连续音视频 数据库实验中,由于MM.ADBN模型和WPS—DBN模型的 识别基元是音素,可以得到相对充分的训练,而WP—DBN 模型和MS—ADBN模型是整词模型,难以得到充分训练。 (4)对于数字音视频数据库实验,当信噪比小于20dB或 采用视频特征,WP—DBN模型识别率都高于HMM模型; 而对于连续音视频识别实验,WPS—DBN模型的识别率都高 于HMM的识别率,虽然HMM采用的是三音素模型,而 WPS—DBN模型采用了单音素的结构,但在纯净语音和视频 特征的测试条件下,WPS.DBN模型的识别率分别提高了 13.01%和5.52%。可能原因是DBN模型能更好描述语音的 变化规律,具有更好的识别性能。 (5)虽然多流DBN模型性能优于MSHMM,但是由于 DBN模型的三角化,推理、搜索的算法还不够完善,特别 是应用于连续音视频语音识别的任务时,运行效率不如 MSHMM,距离实用化还需要更深入的研究。 4结束语 本文提出两个多流动态贝叶斯网络(MS—ADBN和MM— ADBN)模型,应用于小词汇量和大词汇量数据库的音视频语 音识别,模型放松了音视频流异步性的限制,在词级别上描 述了音频视频流的异步性,本质上,MS—ADBN模型是一个 词模型,识别基元是词,而MM—ADBN模型是一个音素模 型,识别基元是音素。实验结果表明:对于小词汇量的数字 音视频数据库。MS—ADBN模型有最高的识别率,而对于大 词汇量连续音视频数据库,纯净语音下,MM.ADBN模型比 MS—ADBN模型和多流HMM模型的识别率高35.9l%和 9.97%,实验表明了音视频的异步性描述对多模态音视频语 音识别系统的重要性。在将来的工作中,我们将继续完善 MM-ADBN模型,实现三音素捆绑并应用于大词汇量连续音 视频数据库的语音识别。 参考文献 【1]DupontSandLuettinJ.Audio-visualspeechmodelingfor continuousspeechrecognition.IEEETrans.onMultimedia, 2000,2(3):141~151. [2]PotamianosG,andNetiC,eta1..Recentadvancesinthe automaticrecognitionofaudiovisualspeech.Proc.IEEE, 2003,91(9):1306—1326. [3j NefianA,LiangL,andPiX,eta1..DynamicBayesian networksforaudio-visualspeechrecognition.EURASIP, JournalonApp屁edSignalProcessing,2002,2002(11): 1274—1288. [4】 BilmesJandZweigG.Thegraphicalmodelstoolkit:Anopen sourcesoftwaresystemforspeechandtime-seriesprocessing. InProc.IEEEIntl.Conf.Acoustics,Speech,andSignal Processing,Orlando,USA,2002,4:3916—3919. [5] GowdyJN,SubramanyaA,andBarrelsC,eta1..DBN—based multistreammodelsforaudio-visualspeechrecognition.In Proc.IEEEInt.ConeAcoustics,Speech,andSignal Processing,Philadelphia,USA,May2004,1:993—996. [6】 BilmesJandBartelsC.Graphicalmodelarchitecturesfor speechrecognition.IEEESignalProcessingMaga新ne,2005, 22(5):89—100. [7] RavyseIlse,JiangDM,andJiangxY,etat,DBNbased modelsforaudio-visualspeechanalysisandrecognition.2006 Pacific-RimConferenceonMultimedia(PCM2006), Hangzhou,China,Nov2-4,2006:19—30. 万方数据 第12期 吕国云等:基于多流多状态动态贝叶斯网络的音视频连续语音识别 2911 LnGuoyun,JiangDongmei,andSahliH,cta/..AnovelDBN modelforlargevocabularycontinuousspeechrecognitionand phonesegmentation.InternationalConferenceonArtificial IntelligenceandPatternRecognition(AIPR-07),Orlando, Florida,USA,July2007:397-402. 吕国云: 男,1975年生,搏士生,研究方向为模式识别、音视频 信号处理. 蒋冬梅: 张艳宁: 赵荣椿 女,1973年生,副教授,研究方向为音视频信号处理. 女,1967年生,教授,博士生导师,研究方向为视频图 像处理和计算机视觉. 男,1937年生,教授,博士生导师,研究方向为语音图 像处理和计算机视觉. HSahli: 男,教授,研究方向为语音和图像处理 WVerhelst:男,教授,研究方向为语音信号处理. 万方数据 基于多流多状态动态贝叶斯网络的音视频连续语音识别 作者: 吕国云, 蒋冬梅, 张艳宁, 赵荣椿, H Sahli, Ilse Ravyse, W Verhelst, Lü Guo- yun, Jiang Dong-mei, Zhang Yan-ning, Zhao Rong-chun, H Sahli, Ilse Ravyse , W Verhelst 作者单位: 吕国云,蒋冬梅,张艳宁,赵荣椿,Lü Guo-yun,Jiang Dong-mei,Zhang Yan-ning,Zhao Rong- chun(西北工业大学计算机学院,西安,710072), H Sahli,Ilse Ravyse,W Verhelst,H Sahli,Ilse Ravyse,W Verhelst(布鲁塞尔自由大学电子与信息处理系,布鲁塞尔,B-1050,比 利时) 刊名: 电子与信息学报 英文刊名: JOURNAL OF ELECTRONICS & INFORMATION TECHNOLOGY 年,卷(期): 2008,30(12) 参考文献(8条) 1.Nefian A;Liang L;Pi X Dynamic Bayesian networks for audio-visual speech recognition[外文期刊] 2002(211) 2.Potamianos G;Neti C Recent advances in the automatic recognition of audiovisual speech[外文期刊] 2003(19) 3.Dupont S;Luettin J Audio-visual speech modeling for continuous speech recognition[外文期刊] 2000(23) 4.Lü Guoyun;Jiang Dongmei;Sahli H A novel DBN model for large vocabulary continuous speech recognition and phone segmentation 2007 5.Ravyse Ilse;Jiang D M;Jiang X Y DBN based models for audio-visual speech analysis and recognition 2006 6.Bilmes J;Bartels C Graphical model architectures for speech recognition[外文期刊] 2005(25) 7.Gowdy J N;Subramanya A;Bartels C DBN-based multistream models for audio-visual speech recognition 2004 8.Bilmes J;Zweig G The graphical models toolkit:An open source software system for speech and time- series processing 2002 本文链接:http://d.g.wanfangdata.com.cn/Periodical_dzkxxk200812026.aspx
本文档为【动态贝叶斯网络的音视频连续语音识别】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_663571
暂无简介~
格式:pdf
大小:453KB
软件:PDF阅读器
页数:7
分类:互联网
上传时间:2012-08-27
浏览量:33