动态贝叶斯网络的音视频连续语音识别

动态贝叶斯网络的音视频连续语音识别第30卷第12期 2008年12月电子与信息学报 JournalofElectronics＆InformationTechnology V01．30N0．12 Dec．2008 基于多流多状态动态贝叶斯网络的音视频连续语音识别吕国云① 蒋冬梅① 张艳宁① 赵荣幸春①HSahli② IlseRavyse@WVerhelst@ ⋯(西北工业大学计算机学院西安710072) ⋯(布鲁塞尔自由大学电子与信息处理系布鲁塞尔 B一1050比利时) 摘要：语音和唇部运动的异步性是多模态融合语音识别的关...

第30卷第12期 2008年12月电子与信息学报 JournalofElectronics＆InformationTechnology V01．30N0．12 Dec．2008 基于多流多状态动态贝叶斯网络的音视频连续语音识别吕国云① 蒋冬梅① 张艳宁① 赵荣幸春①HSahli② IlseRavyse@WVerhelst@ ⋯(西北工业大学计算机学院西安710072) ⋯(布鲁塞尔自由大学电子与信息处理系布鲁塞尔 B一1050比利时) 摘要：语音和唇部运动的异步性是多模态融合语音识别的关键问题，该文首先引入一个多流异步动态贝叶斯网络 (MS—ADBN)模型，在词的级别上描述了音频流和视频流的异步性，音视频流都采用了词一音素的层次结构。而多流多状态异步DBN(MM—ADBN)模型是MS．ADBN模型的扩展，音视频流都采用了词．音素一状态的层次结构。本质上，MS—ADBN是一个整词模型，而MM．ADBN模型是一个音素模型，适用于大词汇量连续语音识别。实验结果表明：基于连续音视频数据库，在纯净语音环境下，MM-ADBN比MS—ADBN模型和多流HMM识别率分别提高 35．9l％和9．97％。关键词：语音识别；动态贝叶斯网络：音视频；多流异步中图分类号：TP391．42 文献标识码：A 文章编号：1009—5896(2008)12．2906．06 DBNBasedMulti-streamMulti-statesModelforContinue Audio．VisualSpeechRecognition LfiGuo-yun∞JiangDong-meiⅢZhangYan-ning∞ZhaoRong-chun① HSahli②IlseRavyse@WVerhelst⑦ ①(NorthwestemPolytechnicalUniversit可，Schoolo／ComputerScience，Xi’口珏710072，China) ②(川如UniversiteitBrussel，Depn庀me佗tETRO，BrusselB-1050，Belgium) Abstract：Asynchronyofspeechandlipmotionisakeyissueofmulti—modelfusionAudio-VisualSpeech Recognition(AVSR)．Inthispaper，aMulti—StreamAsynchronyDynamicBayesianNetwork(MS—ADBN)modelis introduced，whichloosestheasynchronyofaudioandvisualstreamstothewordlevel，andbothinaudiostream andinvisualstream，word-phonetopologystructureisused．However，Multi—streamMulti-statesAsynchronyDBN (MM—ADBN)modelisanaugmentationofMulti-StreamDBN(MS—ADBN)model，isproposedforlarge vocabularyAVSR，whichadoptsword-phone-statetopologystructureinbothaudiostreamandvisualstream．In essential，MS—ADBNmodelisawordmodel，andwhileMM—ADBNmodelisaphonemodelwhoserecognition basicunitsarephones．Theexperimentsaxedoneonsmallvocabularyandlargevocabularyaudio-visualdatabase， theresultsshowthat：forlargevocabularyaudio-visualdatabase，comparingwithMS—ADBNmodelandMSHMM， incleanspeechenvironment．theimprovementsof35．91and9．97％areobtainedforMM-ADBNmodelrespectively, whichshowtheasynchronydescriptionisimportantforAVSRsystems． Keywords：Speechrecognition；DynamicBayesianNetwork(DBN)；Audio-visual；Multi-streamasynchrony 1 引言多模态音视频语音识别是近年来语音信号处理新的研究热点Ll,ZJ。结合人说话时的唇部视觉特征，可以提高噪声环境下语音识别的鲁棒性。然而心理声学研究和音视频融合模型的实验结果表明：虽然人的唇部视觉运动和声音是相关的，但是并不同步，唇部运动先于语音信号大约120ms左右n 任何音视频联合建模的语音识别系统都应该尽可能考虑这个事实。 200％06-11收到，2007-11．27改回中国科技部与比利时弗拉芒大区科技合作项目([2004】487)和西北工业大学英才培养计划项目(04XD0102)资助课题对于音视频模型融合的语音识别研究，Potamianos， Nefian等人对状态同步／异步多流HMM，乘积HMM， coupledHMM，factorialHMM等多流HMM进行了分析和识别实验11_引。虽然多流HMM能在一定程度上(状态，音素，音节)反映音视频流的异步性，但是对中大词汇量的音视频语音识别，多流HMM仅能采用音素基元来建立模型，限制音视频流的异步性在音素边界，并不能充分描述音视频流之间的异步关系。利用动态贝叶斯网络(DynamicBayesianNetwork， DBN)模型进行语音识别研究是近年来的一个研究热点， DBN能够描述变量之间的概率依赖关系及随时间变化的规律，适合对复杂的变量关系进行建模。Bilmes，Zweig等人采万方数据第12期吕国云等：基于多流多状态动态贝叶斯网络的音视频连续语音识别 2907 用DBN模型来研究小词汇量的语音识别【4～1。Gowdy建立了多流DBN模型15J，通过词转移概率的发生迫使音频流和视频流在词节点同步，然而关于音视频流如何决定词转移的发生，却没有给出具体的描述。Bilmes给出了一个通用的多流异步的DBN模型结构【6|，描述了词转移概率和音视频流相关节点之间的条件依赖关系，但没有给出实验结果。同时上述模型在本质上都是词模型，识别基元是词，仅适合于小词汇量的音视频语音识别任务。本文基于Bilmes提出的多流DBN模型结构，首先把原模型中的词一状态的构成形式更改为词．音素的构成形式，这样由于音素由多个词共享，减少了训练参数，本文称之为多流异步DBN(MS．ADBN)模型。同时在MS．ADBN模型的音视频流的拓扑结构中各增加了一个隐含的状态节点层，构成了一个新颖的多流多状态异步DBN(Multi-streamMulti- statesAsynchronyDBN，MM-ADBN)模型。音频流和视频流都采用了词．音素一状态的层次结构，识别基元为音素，模型不但描述了词的动态发音过程，而且描述了音素的动态发音过程，适合对大词汇量进行音视频连续语音识别。 2多流异步DBN模型 2．1 MS．ADBN模型图1描述了MS．ADBN模型的语音识别结构，在这个模型中，词(word)和词转移节点(wordtransition)位于模型的上方，在两个词之间，音频流和视频流各自有独立的音素 (phone)，音素位置(phoneposition)，观测向量，音素转移概率以及节点变量之间的条件依赖关系。在音频流和视频流，每个词都是由它的对应音素构成，相当于具有对词节点的两个独立的描述，而每个音素和观测向量直接联系。当词转移发生时，音频流和视频流中的音素位置节点都被强行复位而迫使音频视频流在词节点同步。而词转移概率由音频流和视频流的节点变量共同确定，对于确定的词，只有当音频流和视频流中的音素为在该词中的最后一个音素，并且两流的音素转移都同时发生时，词转移才会发生。然而MS—ADBN模型本质上是一个词模型，仅适合于小词汇量数据库的音视频语音识别。 Word(W) Phonel Position(PPl) Phonel(P1) AudioObs(01 Phone2 Position(PP2) Phone2(P2) Visual0bs(0 摭渤丽辨刚《善悸^ 弋^ 二 ‘ E：ologueChunk 图1 MS—ADBN音视频连续语音识别模型 2．2MM-ADBN模型为了能对大词汇量进行音视频语音识别，应该采用更小的识别基元．音素，基于MS—ADBN模型，本文在音视频流的拓扑结构中都增加了一个隐含的状态节点层，构成 MM—ADBN模型，见图2所示，在音频流和视频流，每个词由它的对应音素构成，而音素由固定个数的状态描述，状态和观测向量相联系，它的识别基元是音素，可以满足大词汇量数据库音视频语音识别的任务。 "Word(W) PhonePosition1 (PPl) Phonel(P1) Statd1 Position (SPl) State2fS21 Visualobsf0 圈2 MM—ADBN音视频连续语音识别模型图2中圆括号内为对应节点变量的简称，Ⅳ为词节点， wT为词转移概率，P1和P2为音素节点，PPl和PP2表示音素在词中的位置，PTl和PT2为音素转移概率，S1和 S2为状态节点，SPl和SP2为状态在音素中的位置，STl和 ST2为状态转移概率，01为音频特征观测向量，02为视频特征观测向量。下面详细描述了主要节点变量及其条件概率分布 (ConditionalProbabilityDistribution，CPD)。 (1)观测向量节点(0l和D2)：01和D2分别为音频特征向量和视频特征向量，条件概率P(Oxti，t)，。为1或2 分别表示音频流和视频流(本文以下部分类同)，采用高斯混合模型来描述。 M ， ‰。(∞。)=，(DXtI踟。)=∑u蹦Ⅳ(∞。，‰t，‰。。)(1) m=l 其中u瓯，女为权值，￡≈u鼠％=1，M为混合元个数，慨≈为均值，盯。。为协方差。 (2)状态转移概率(STl和ST2)，表示驻留在本状态或转移到下个状态的概率。 (3)状态节点(STl和ST2)：CPD为P(SxtSPx￡，Pxt)，是它的父节点SPx和音素R的确定性函数，如果给出了音㈣一～嘲删一嘲邶㈨一嘲邮一㈣如“时p雾㈣ ‰ ：{||一 ‰眦眦篱 0 万方数据 2908 电子与信息学报第30卷素和状态在音素中的位置，那么具体状态就可以得到。表示为 p(Sxt=JlPxt=i，SPx￡=m) fl' J为音素i 的第m个状态 2 10，其他㈣ L (4)状态在音素中的位置节点(SPl和SP2)：在初始帧， SPxl为0；在其他时间帧，当有音素转移发生时，表示一个音素的结束，状态位置SPxi值也复位为0，没有音素转移发生时，SPx。的值由状态转移(STx+)确定，公式表示为 p(SPxt=JSPx￡一1=i，PTx￡一1=m，STx￡一1=扎) 1， m=1，J=0 1， m=0’n=1，J=i+1 1，m：0，礼：0，J：i (3) 0，其他 (5)音素节点(P1和P2)：是父节点PPx和w的确定性函数，该函数确定了词和音素之间的详细关系，对于给定的词，如果给出了音素在词中的位置，那么音素就可以得到。它的CPD表示为。 p(Px￡=Jl彬=i，PPx￡=m) 1， J是词i的第m个音素 2 k 其他 (4) (6)音素转移概率(PTl和PT2)：本文中，每个音素采用了4个状态来表示，对于给定的音素(Pz)，仅当当前状态为音素的最后一个状态，并且有状态转移发生时，才会有音素转移发生，表示为 p(PTxt=引如=a，SPx￡=b，STxt=m) 1， J=1，m=l，6为音素a的最后一个状态 1， J=0，m=1，6不是音素a的最后一个状态 0，其他 (5) (7)音素在词中的位置节点(PPl和PP2)：类似于SPl 和SP2，在初始帧，PPxl为0；在其他帧，当有词转移发生时，表示一个词的结束，PPx。值也复位为0，没有词转移时， PPx，的值由音素转移概率来确定，公式表示为 p(PPxt=JPPxt—l=i，W丑一l=m，PTx￡一l=n) 1， m=1，J=0 1， m=0，n=1，J=i+1 1，m：0，礼：0，J：i (6) 0，其他 (8)i百7转移概率节点(wT)：词转移概率由音频流和视频流共同确定，它有5个父节点，由于每个词的音素构成不同，需要分别处理，对于给定的词，只有当两个流中的PPx都为音素在词中的最后一个音素，而且两流中的音素转移概率 PTl和PT2同时都为1时，词转移才会发生。 p(WTt=j限=o，PPl￡=b,PP2t=c,PTlz=m，PT2t=扎) 1， J=1，m=1，竹=1，b=lastphonel(a)， c=lastphone2(a) 1， J=0and(m≠1orn≠1orb=～lastphonel(a) orc=～lastphone2(a)) 0，其他 (7) 式中lastphonel(a)和lastphone2(a)分别表示音频流和视频流中词a的最后一个音素。 (9)词节点(Ⅳ)：在初始帧，词由单文法模型unigram(i) 确定，而在其他帧，采用了二元文法模型，当没有词转移发生时，词保持不变；当有词转移发生时，由当前词转移到下一个词的概率采用二元文法模型得到。 P(嘭=JI彤一。=i，WE=m) bigram(i，J)，m=1 1， m=0，i=j (8) 0，其他 bigram(i，J)表示由词i转移到J的概率，通过对训练样本进行统计得到。 3识别实验和结果分析本文采用GMTK[41和HTK来分别实现本文提到的所有 DBN模型和HMM模型。 3．1音视频数据库音视频数据库采用西北工业大学一比利时布鲁塞尔自由大学音视频信号处理联合实验室录制的数字音视频英文数据库和连续音视频英文数据库。数字音视频数据库中有数字 0-10，涉及到22个音素I[phone)，数据库的脚本按照Aurora 2．0语音数据库的句子顺序录制。本文采用100句纯净的音视频数据作为训练数据，另外50旬以及相应加噪语音的音视频数据作为测试数据。对于连续音视频数据库，数据库的脚本采用TIMIT数据库生成，本文采用了600句音视频数据，包含了1692个词和74个音素。考虑到样本数据相对比较少，采用．iack—knife策略，把样本分为两部分，循环进行训练和识别实验，每次采用了500旬纯挣语音的音视频数据进行训练，另外100句及加噪语音的音视频数据作为测试样本，最后对6次识别结果进行平均。 3．2音频视频特征提取音视频特征提取过程见图3，对音频数据，帧速率为100 帧／秒，采用HTK工具包提取音频数据的12维MFCC特征和能量特征，加上一阶和二阶差分系数，即MFCCDA，共42维音频特征。万方数据第12期吕国云等：基于多流多状态动态贝叶斯网络的音视频连续语音识别视频流fAVI Video，25Hz) 视频特征提取和硒BTSM瓣Alg硬orittm驯l嬲霪20鬻：)l’l点序列f点器辫(2何静5Hz鬻60蒿H竺竺竺特征提取维)I L=～=：⋯‘‘ 视频特征 (100Hzl 音频特征提取[五要要霎互二卜——l!M委F霎C霎C圣D至要A!}_耐I(AvI，Au(1i())广1广吾愿再F。’ (100Hz) 图3音频视频特征提取框图对于视频数据，帧速率为25帧／秒，首先进行嘴唇检测和跟踪|7|’然后采用贝叶斯切线形状模型(BayesianTangent ShapeModel，BTSM)算法【”进行唇部特征轮廓点的自动标注，基于唇部轮廓特征点，提取唇部的几何特征，包括嘴唇上下左右的张开度(横向和纵向距离)，以及张开时的角度共 20维特征，最后和第一帧的视频几何特征相减进行归一化处理，同时，为了表示口形动态特征，提取了几何特征的一阶和二阶差分系数，共有60维视频特征。最后，为了和音频数据的采样率一致，进行线性插值处理。 3．3实验安装和结果分析为评价模型的性能，本文采用了文献『81中的两个单流 DBN模型：WP。DBN和WPS．DBN模型(分别为MS—ADBN 和MM—ADBN模型相对应的单流DBN模型)。同时采用 HMM模型和多流异步HMM(MSHMM，采用乘积HMM实现)在相同的实验条件下进行了语音识别实验。在连续数字音视频语音识别实验中，对于WP—DBN模型}8j，音素和观测向量相联系，采用1个高斯模型描述，加上静音和停顿，共有25个高斯模型参数需要训练，对于MS— ADBN模型，则有50个高斯模型参数。而对于WPS—DBN 模型，每个音素由4个状态数构成，状态和观测向量相联系，共有91个高斯参数，对于MM—ADBN模型，则有182个高斯模型参数需要训练。对于训练样本，大约每个词平均有60 多个训练样本，每个音素平均有200个样本，模型可以得到一定的训练，识别结果见表1。在连续音视频语音识别实验中，WP．DBN模型共有77 个高斯模型参数【引，MS—ADBN模型则有154个高斯模型参数。而对于WPS—DBN模型，共有299个高斯参数，对于 MM．ADBN模型，则有598个高斯模型参数需要训练。对于训练样本，大约每个词平均约3个训练样本，所以WP。DBN 模型和MS。ADBN模型不能得到充分{；f}|练，而每个音素大约有超过300个样本，WPS．DBN模型和MM．ADBN模型可以得到一定的训练，识别结果见表2。从表1和表2的结果可以得出下述结论： (1)由于结合了语音的视觉特征，多流模型的性能明显优于对应的单流模型，对于数字音视频数据库，在信噪比为 0-30dB的测试环境下，MSHMM，MS—ADBN模型和 MM—ADBN模型比对应的单流模型(HMM，WP．DBN和 WPS—DBN模型)识别率平均提高6．03％，6％和7％。而对于连续音视频甄据库，在纯净语音环境下，识别率分别提高了 1．86％，2．57％和5．61％，说明由于视觉特征的辅助作用，提高了系统的识别性能及对噪声的鲁棒性。 (2)对于数字音视频数据库，在信噪比为0-30dB的测试环境下，MS．ADBN模型的识别率比MSHMM的识别率平均高9．93％。对于连续音视频数据库，MM—ADBN模型的识别率都高于MSHMM的识别率，纯净语音下，识别率提高了9．97％。因为MS—ADBN模型和MM-ADBN模型在单词之内描述了音频视频流的异步性，而MSHMM模型限制音频视频流在音素边界同步。结果表明了音视频异步性的描述对多模态语音识别的重要性。表1 数字音视频数据库：实验系统和词识别结果万方数据 2910 电子与信息学报第30卷 (3)对于数字音视频数据库，基于音频视频特征的WPS— DBN模型和MM—ADBN模型的识别率分别低于WP—DBN 模型和MS—ADBN模型的识别率；相反，对于连续音视频数据库，识别率优于WP—DBN和MS—ADBN模型，在纯净语音环境下，识别率分别提高了35．2％和35．91％。因为在数字音视频数据库下，wP—DBN和MS—ADBN模型可以得到充分的训练，词基元模型优于音素基元模型，而在连续音视频数据库实验中，由于MM．ADBN模型和WPS—DBN模型的识别基元是音素，可以得到相对充分的训练，而WP—DBN 模型和MS—ADBN模型是整词模型，难以得到充分训练。 (4)对于数字音视频数据库实验，当信噪比小于20dB或采用视频特征，WP—DBN模型识别率都高于HMM模型；而对于连续音视频识别实验，WPS—DBN模型的识别率都高于HMM的识别率，虽然HMM采用的是三音素模型，而 WPS—DBN模型采用了单音素的结构，但在纯净语音和视频特征的测试条件下，WPS．DBN模型的识别率分别提高了 13．01％和5．52％。可能原因是DBN模型能更好描述语音的变化规律，具有更好的识别性能。 (5)虽然多流DBN模型性能优于MSHMM，但是由于 DBN模型的三角化，推理、搜索的算法还不够完善，特别是应用于连续音视频语音识别的任务时，运行效率不如 MSHMM，距离实用化还需要更深入的研究。 4结束语本文提出两个多流动态贝叶斯网络(MS—ADBN和MM— ADBN)模型，应用于小词汇量和大词汇量数据库的音视频语音识别，模型放松了音视频流异步性的限制，在词级别上描述了音频视频流的异步性，本质上，MS—ADBN模型是一个词模型，识别基元是词，而MM—ADBN模型是一个音素模型，识别基元是音素。实验结果表明：对于小词汇量的数字音视频数据库。MS—ADBN模型有最高的识别率，而对于大词汇量连续音视频数据库，纯净语音下，MM．ADBN模型比 MS—ADBN模型和多流HMM模型的识别率高35．9l％和 9．97％，实验表明了音视频的异步性描述对多模态音视频语音识别系统的重要性。在将来的工作中，我们将继续完善 MM-ADBN模型，实现三音素捆绑并应用于大词汇量连续音视频数据库的语音识别。参考文献【1]DupontSandLuettinJ．Audio-visualspeechmodelingfor continuousspeechrecognition．IEEETrans．onMultimedia， 2000，2(3)：141～151． [2]PotamianosG，andNetiC，eta1．．Recentadvancesinthe automaticrecognitionofaudiovisualspeech．Proc．IEEE, 2003，91(9)：1306—1326． [3j NefianA，LiangL，andPiX，eta1．．DynamicBayesian networksforaudio-visualspeechrecognition．EURASIP， JournalonApp屁edSignalProcessing，2002，2002(11)： 1274—1288． [4】 BilmesJandZweigG．Thegraphicalmodelstoolkit：Anopen sourcesoftwaresystemforspeechandtime-seriesprocessing． InProc．IEEEIntl．Conf．Acoustics，Speech，andSignal Processing，Orlando，USA，2002，4：3916—3919． [5] GowdyJN，SubramanyaA，andBarrelsC，eta1．．DBN—based multistreammodelsforaudio-visualspeechrecognition．In Proc．IEEEInt．ConeAcoustics，Speech，andSignal Processing，Philadelphia，USA，May2004，1：993—996． [6】 BilmesJandBartelsC．Graphicalmodelarchitecturesfor speechrecognition．IEEESignalProcessingMaga新ne，2005， 22(5)：89—100． [7] RavyseIlse，JiangDM，andJiangxY，etat，DBNbased modelsforaudio-visualspeechanalysisandrecognition．2006 Pacific-RimConferenceonMultimedia(PCM2006)， Hangzhou，China，Nov2-4，2006：19—30．万方数据第12期吕国云等：基于多流多状态动态贝叶斯网络的音视频连续语音识别 2911 LnGuoyun，JiangDongmei，andSahliH，cta／．．AnovelDBN modelforlargevocabularycontinuousspeechrecognitionand phonesegmentation．InternationalConferenceonArtificial IntelligenceandPatternRecognition(AIPR-07)，Orlando， Florida，USA，July2007：397-402．吕国云：男，1975年生，搏士生，研究方向为模式识别、音视频信号处理．蒋冬梅：张艳宁：赵荣椿女，1973年生，副教授，研究方向为音视频信号处理．女，1967年生，教授，博士生导师，研究方向为视频图像处理和计算机视觉．男，1937年生，教授，博士生导师，研究方向为语音图像处理和计算机视觉． HSahli：男，教授，研究方向为语音和图像处理 WVerhelst：男，教授，研究方向为语音信号处理．万方数据基于多流多状态动态贝叶斯网络的音视频连续语音识别作者：吕国云，蒋冬梅，张艳宁，赵荣椿， H Sahli， Ilse Ravyse， W Verhelst， Lü Guo- yun， Jiang Dong-mei， Zhang Yan-ning， Zhao Rong-chun， H Sahli， Ilse Ravyse ， W Verhelst 作者单位：吕国云,蒋冬梅,张艳宁,赵荣椿,Lü Guo-yun,Jiang Dong-mei,Zhang Yan-ning,Zhao Rong- chun(西北工业大学计算机学院,西安,710072)， H Sahli,Ilse Ravyse,W Verhelst,H Sahli,Ilse Ravyse,W Verhelst(布鲁塞尔自由大学电子与信息处理系,布鲁塞尔,B-1050,比利时) 刊名：电子与信息学报英文刊名： JOURNAL OF ELECTRONICS & INFORMATION TECHNOLOGY 年，卷(期)： 2008,30(12) 参考文献(8条) 1.Nefian A;Liang L;Pi X Dynamic Bayesian networks for audio-visual speech recognition[外文期刊] 2002(211) 2.Potamianos G;Neti C Recent advances in the automatic recognition of audiovisual speech[外文期刊] 2003(19) 3.Dupont S;Luettin J Audio-visual speech modeling for continuous speech recognition[外文期刊] 2000(23) 4.Lü Guoyun;Jiang Dongmei;Sahli H A novel DBN model for large vocabulary continuous speech recognition and phone segmentation 2007 5.Ravyse Ilse;Jiang D M;Jiang X Y DBN based models for audio-visual speech analysis and recognition 2006 6.Bilmes J;Bartels C Graphical model architectures for speech recognition[外文期刊] 2005(25) 7.Gowdy J N;Subramanya A;Bartels C DBN-based multistream models for audio-visual speech recognition 2004 8.Bilmes J;Zweig G The graphical models toolkit:An open source software system for speech and time- series processing 2002 本文链接：http://d.g.wanfangdata.com.cn/Periodical_dzkxxk200812026.aspx

                    本文档为【动态贝叶斯网络的音视频连续语音识别】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

动态贝叶斯网络的音视频连续语音识别

你可能还喜欢