提取语音特征->和 关键词语列表中的关键词语进行对比匹配->找出得分最高的关键词语作为识别结果输出。 语音识别芯片能在两种情况下给出识别结果: 1)外部送入预定时间的语音数据后(比如5秒钟的语音数据),芯片对这些语音数据运"/> 提取语音特征->和 关键词语列表中的关键词语进行对比匹配->找出得分最高的关键词语作为识别结果输出。 语音识别芯片能在两种情况下给出识别结果: 1)外部送入预定时间的语音数据后(比如5秒钟的语音数据),芯片对这些语音数据运"/>
首页 语音识别芯片工作原理

语音识别芯片工作原理

举报
开通vip

语音识别芯片工作原理 LD332XLD332XLD332XLD332X系列语音识别芯片的工作原理: LD3320提供的语音识别技术,是基于 "关键词语列表 "的识别技术 :ASR(Auto speech recognition )技术。 语音识别芯片完成的工作就是:把通过 MIC输入的声音进行频谱分析->提取语音特征->和 关键词语列表中的关键词语进行对比匹配->找出得分最高的关键词语作为识别结果输出。 语音识别芯片能在两种情况下给出识别结果: 1)外部送入预定时间的语音数据后(比如5秒钟的语音数据),芯片对这些语音数据运...

语音识别芯片工作原理
LD332XLD332XLD332XLD332X系列语音识别芯片的工作原理: LD3320提供的语音识别技术,是基于 "关键词语列表 "的识别技术 :ASR(Auto speech recognition )技术。 语音识别芯片完成的工作就是:把通过 MIC输入的声音进行频谱分析->提取语音特征->和 关键词语列表中的关键词语进行对比匹配->找出得分最高的关键词语作为识别结果输出。 语音识别芯片能在两种情况下给出识别结果: 1)外部送入预定时间的语音数据后(比如5秒钟的语音数据),芯片对这些语音数据运算分 析后,给出识别结果 2)外部送入语音数据流,语音识别芯片通过端点检测 VAD(voice activity detection)检测 出用户停止说话,把用户开始说话到停止说话之间的语音数据进行运算分析后,给出识别结 果 对于第一种情况,可以理解为设定了一个定时录音(比如为5秒钟),芯片在5秒钟后,会停 止把声音送入识别引擎,并且根据已送入引擎的语音数据计算出一个识别结果。 对于第二种情况,需要了解 VAD的工作原理: VAD(Voice Activity Detection) 技术是在一段语音数据流中,判断出哪个时间点是人声的 开始,哪个时间点是人声的结束。判断的依据是,在背景声音的基础上有了语音发音,则视 为声音的开始。而后,检测到一段持续时间的背景音(比如600毫秒),则视为人声说话结 束。 通过 VAD判断出人声说话的区域后,语音识别芯片会把这期间的声音数据进行识别处理后, 计算出识别结果。 需要说明的是,除了以上两种情况外,语音识别算法无法"主动"地判断出是否识别出了一个 结果。这是因为,在计算的过程中的任何时刻,语音识别器都会对已送入识别芯片的声音数 据进行分析,并根据匹配程度为识别列表中的关键词语进行打分,最匹配的打分最高。 但是,由于识别算法不知道用户后面是否还继续说语音,所以无法"主动"地判断已经识别出 一个结果。 比如,识别列表中有两个关键词语分别是"李晓"和"李晓明",当用户说到"晓"这个音节时, 在识别芯片内部是"李晓"的得分最高,但此时识别芯片是无法给出识别结果。随着用户说出 "明"音节后,"李晓明"则成为得分最高。此时,用户停止说话,或者是定时录音已到,使得 识别芯片可以判断出用户已经停止说话了,才能给出识别结果是"李晓明"。
本文档为【语音识别芯片工作原理】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_251542
暂无简介~
格式:pdf
大小:87KB
软件:PDF阅读器
页数:2
分类:
上传时间:2014-03-21
浏览量:68