首页 基于多核融合和模型参数自适应的非特定人语音情感识别的研究（可编辑）

基于多核融合和模型参数自适应的非特定人语音情感识别的研究（可编辑）

基于多核融合和模型参数自适应的非特定人语音情感识别的研究（可编辑）基于多核融合和模型参数自适应的非特定人语音情感识别的研究（可编辑）基于多核融合和模型参数自适应的非特定人语音情感识别的研究分类号: 殴:丝: 编号:? ? 垒:主江蒜大擎硕士学位论文 ?,尊智.。,曙基于多核融合和模型参数自适应的非特定人语音情感识别研究指导教师詹丞照 : 作者姓名王治缝申请学位级别亟? 专业名称土簋扭应用撞垄. 论文提交日期生鱼旦生鱼目论文答辩日期. 学位授予单位和日期江菱太堂生鱼且评阅人独创.性声明本人郑重声明:所呈交的学...

基于多核融合和模型参数自适应的非特定人语音情感识别的研究（可编辑）基于多核融合和模型参数自适应的非特定人语音情感识别的研究分类号: 殴:丝: 编号:? ? 垒:主江蒜大擎硕士学位论文 ?,尊智.。,曙基于多核融合和模型参数自适应的非特定人语音情感识别研究指导教师詹丞照 : 作者姓名王治缝申请学位级别亟? 专业名称土簋扭应用撞垄. 论文提交日期生鱼旦生鱼目论文答辩日期. 学位授予单位和日期江菱太堂生鱼且评阅人独创.性声明本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究工作所取得的成果。除文中已注明引用的内容以外,本论文不包含任何其他个人或集体已经发表或撰写过的作品成果,也不包含为获得江苏大学或其他教育机构的学位或证书而使用过的材料。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。学位论文作者签名: 王多声律二年么月日学位论文版权使用授权书江苏大学、中国科学技术信息研究所、国家图书馆、中国学术期刊光盘版电子杂志社有权保留本人所送交学位论文的复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内容和纸质论文的内容相一致,允许论文被查阅和借阅,同时授权中国科学技术信息研究所将本论文江苏大学硕士研究生毕业论文要摘语音情感识别是情感识别的~个重要分支,它利用计算机及其辅助设备提取说话人的情感特征, 分析说话人的情感状态及其变化,进而确定说话人的心理情绪或思想活动,实现人机之间更自然、更智能化的交互。目前,特定人语音情感识别研究已经取得了巨大的成就,特别是在远程教育、医疗、通信、刑事侦查等方面已经得到大量应用;但现实世界中,非特定人语音情感识别的应用领域更加普遍,故针对非特定人的语音情感识别研究具有更大的现实意义。本文正是针对非特定人语音情感识别过程中识别模型对待识别样本的适应性问题,提出改进方法,并通过实验进行有效性验证。论文主要工作如下: 提出基于错分样本近邻支持向量优选的语音情感自适应识别算法。该算法用语音情感训练集样本训练的初始模型对新增的语音情感样本进行识别,把被识别错误的语音情感样本作为自适应样本,与对其进行识别的模型中的近邻支持向量一起构建自适应训练集,根据.模型参数拉格朗乘子总和保持不变的原则,通过算法调整模型的支持向量和对应的拉格朗日乘子,从而提高模型的泛化性能。提出基于特征分组的多核融合语音情感自适应识别算法。此算法首先把语音情感特征按照待识别样本集的特性分为若干组,然后根据各组特征的特性采用不同的核函数训练.模型,并分别把各个模型支持向量间的相似度作为其权重系数,通过自适应样本不断调整权重系数和模型参数,使得?模型的参数能够随着待识别语音情感样本特性的变化而自适应地变化。这种特征集与核函数相匹配的方法最大程度的利用了不同特征的特性和不同核函数的优点,使得模型的识别性能进一步提高。采用和结合的开发模式,实现了非特定人语音情感识别原型系统。其中语音信号的读取和处理以及情感特征的提取均采用编写代码实现,模型训练、情感识别功能用编写代码实现。最后,通过与其它算法实验结果的对比和分析,证明了本文算法的有效性和稳定性。关键词:语音情感识别,多核融合,特征分组,支持向量,自适应模型江苏大学硕士研究生毕业论文, ’, ’ ’,, .. ,,,, . . . . , : ? ? ? . ? , ? , ., . ? . ,, .,, ? . .,江苏大学硕士研究生毕业论文 .‘ ? .,. , .,.,., : , , ,江苏大学硕士研究生毕业论文目录第一章绪论??. .课题研究背景及意义??.. .非特定人语音情感识别相关领域应用? .非特定人语音情感识别研究现状 ..国外研究现状 ..国内研究现状 .语音情感识别研究难点及趋势? ..语音情感识别研究的难点. ..语音情感识别研究趋势?.. .论文的研究内容及主要工作.本文组织结构第二章非特定人语音情感识别技术概述.. .语音信号预处理? .语音情感特征参数的提取??. ..基于声学的语音情感特征. ..语音高层信息特征 .语音情感识别方法??. ..常用语音情感识别方法??.....? ..模型自适应方法? . 小结 ??一第三章基于错分样本近邻支持向量优选的语音情感自适应识别算法?. .概述?.. .自适应训练集样本选择方法?. ..样本相似性度量方法..近邻样本选择规则. .模型参数优化方法 .基于错分样本近邻支持向量优选的语音情感自适应识别算法??. .非特定人语音情感识别实验.实验结果比较与分析?.. .小结第四章基于特征分组的多核融合语音情感自适应识别算法? 江苏大学硕士研究生毕业论文 .概述.特征分组及相似度矩阵的计算. . .中常用核函数?. .多核融合语音情感自适应识别算法描述??一 .语音情感自适应识别实验 .实验结果分析与比较?。 .叫、结第五章非特定人语音情感识别原型系统的设计与实现??. .概述.系统功能分析?. .模块设计与实现.. ..语音处理模块..情感特征提取模块 ..模型设计模块..自适应模块 .非特定人语音情感识别原型系统功能简介?. .小结第六章工作总结与展望.论文工作总结?.. .下一步工作展望. 致射?.. 参考文献. 攻读硕士学位期间完成的论文和参与的科研项目?江苏大学硕士研究生毕业论文第一章绪论 .课题研究背景及意义情感不仅是人类对外界事物的一种本能反应,也是人们自身心理状况的一种外在表现。它同人的理性思维能力一样,在人们的同常生活、工作、学习和交流中都发挥着巨大作用、扮演着重要的角色。它不仅可以通过肢体语音展现出来,而且可以通过面部表情、语音等来体现。近年来,随着计算机技术的飞速发展,人工智能和人机交互技术也取得巨大成就。语音作为人机交互最方便、最有效、最直接的途径越来越受重视。为了能使计算机更好地为人类服务,人机交互更加自然、智能,大量学者对语音情感进行深入研究并将其应用于人机交互,构建语音情感识别系统,期望能使计算机与人能像人与人之间一样自然、亲切和生动的进行交互【】。语音情感识别可以分为特定人语音情感识别和非特定人语音情感识别。对于特定人语音情感识别的研究已经取得了巨大的成就,并在多个领域得以应用。虽然非特定人语音情感识别也取得一定进展,但与特定人语音情感识别相比,还相当薄弱。在现实世界中,更多的是对非特定人语音情感识别的应用。因此,能满足各种环境条件的非特定人语音情感识别系统将有更广阔的发展空间,具有更重要的应用价值和现实意义。 .非特定人语音情感识别相关领域应用近些年来,随着社会经济的发展、人们对智能化生活的美好向往,基于语音情感的人机交互方式得到广泛应用。它不仅在科技发展、多学科交叉发展方面具有巨大的推动作用,而且在通讯、教育、医疗、娱乐、科技等多个领域改善着人们的生活方式。下面分别从各个领域介绍语音情感识别的应用前景。多种信息查询系统常用的信息查询方式有两种:基于文本的和基于语音的交互式操作。基于文本的查询系统通过输入相应指令或待查询信息获取相应结果;基于语音技术的查询系统更加简单、方便、快捷。将语音情感识别技术应用于信息查询系统能使这些操作更加智能。在这类查询系统中,计算机能对用户的情感进行分析,提供更加人性化和个性化的服务。如在银行查询系统中,如果用户查询时比较着急,可对其建议到人工服务窗口,由服务人员为其服务,以最大可能满足人们的需求。江苏大学硕士研究生毕业论文多媒体教学和网络教育在多媒体教学和网络教育中,语音教学可使所有人都有机会从网络上获取更多更好的教育资源,能使人们按照自己的需求学习不同的专业知识,但这种教学方式机械、呆板。若将语音情感识别加入这种教育方式,则能使用户与计算机的交互更加自然。带有情感的交流,能提高用户的学习效率,增加用户对教学方式的满意度。远程医疗将语音情感识别系统加入到医疗体系,在病人与医疗辅助系统进行交互时,有助于改善病人的心理状况,减轻病人面对病情的心理压力,增强病人病情好转的信心。另外, 语音情感识别系统也能使不具备说话能力的残疾病人得到较好的服务,同时,面向此类病人的语音情感输出系统也正在研究【。游戏和虚拟平台游戏作为人们休闲娱乐的一种方式,已经吸引了越来越多的群体参与其中。但用户与游戏角色的语音交流或者通过语音进行游戏操作的方式,仍然是平淡、枯燥、乏味的。将语音情感识别加入游戏中:能增强用户体验,强化用户与游戏角色的情感交流,使用户在玩游戏过程中的感官体验更加真实。智能机器人目前智能机器人的研究吸引了大量的科研人员,因为它具有广阔的应用前景。将语音情感识别应用其中,将会使得这种融合了非特定人语音情感识别系统的智能机器人识别人类情感,并通过对情感的分析结果,’更好的与人们交流。今天,我们已经看到带有非特定人语音情感识别系统的应用,在不久的未来,非特定人语音情感识别系统将走进每个人的日常生活,使人们更加自然、亲切、智能地与计算机进行交互。 .非特定人语音情感识别研究现状语音情感识别是一个具有挑战性的研究难题,但由于其广阔的应用前景,仍然吸引了大量的学者对其进行深入的研究,并取得了巨大成就。按照说话人是否相同可将语音情感识别分为:特定人语音情感识别和非特定人语音情感识别。目前,特定人语音情感识别技术已经相当成熟,基本能够满足人们的需求,并在许多领域得到应用。非特定人语音情感识别由于受环境、说话人的差异性等多方面的影响,还不能获得令人满意的性江苏大学硕士研究生毕业论文能。但是在现实世界中非特定人语音情感识别的应用更加普遍,因此,对非特定人语音情感识别的研究将有更大的现实意义。本节将详细地介绍非特定人语音情感识别的研究现状。 ..国外研究现状和国外对特定人语音情感识别的研究已经非常多。比较早的有 ?教授一起领导的情感语音小组,他们对心理学和语音分析进行了研究,收集并创建了第一个大规模的高自然度的语音情感数据库,开发了工具【】, 记录从语音中感知到的情感信息。同时,开发了一个分析语音情感的工具’】, 用统计的方法分析语音的声学特性与情感的相关性,并对高兴、愤怒、害怕、悲伤类情感进行了识别,用基于判别式的分析方法达到了%的识别率。教授组建了世界上第一个大规模研究情感及其计算的科研机构。开发了第一个情感语音合成系统“情感编辑器,,】,通过声学参数来合成情感语音, 所使用的声学参数有:基频、时长、音质和清晰度。通过实验,验证了情感状态与声学参数的关联性。虬睛感编辑器”是第一个描述声学参数和情感状态关系的系统,为语音情感特征的选择奠定了基础。对于非特定人语音情感识别的研究相对较少,还处于起步阶段。在媒体实验室完成了通过对驾车时司机语音的重音分析,对司机驾车时的感知负荷新型评估,从而有效地提高车辆行驶的安全。用能量算予作为声学特征,用动态特征集训练混合隐马尔科夫模型.,用全局平均特征训练支持向量机及多层感知器 ,,并将训练模型融合。对非特定人的情感识别进行了实验,对训练集得到 .%的识别率,对测试集得到.%的识别率。用与两种模型融合的方法也获得了不错的识别率。另外,还完成了关于语音情感识别的计算模型研究【】等人从语音情感中提取出个特征,利用带回溯的双向搜索算法对非特定人的负面情感进行识别,在柏林语音情感数据库上获得了平均.%的识别率。教授组建了一个语音情感组,致力于情感语音的声学分析、合成和识别, 他领导的语音情感组将语音的情感识别技术集成入语音对话系统中,首次将语音的声学信息、词汇和语义信息结合在一起进行语音情感状态的识别,通过实验取得不错的识别率【】。江苏大学硕士研究生毕业论文 ?等人采用神经网络构建了语音情感识别模型。这个模型由个子网构成, 每个子网处理一种特定的情感,通过实验发现,此模型对积极的情感能获得较好的识别结果。 ..国内研究现状在国内,语音情感识别起步较晚,但也取得了不错的成就,基本上达到了国外同步标准。特别是在汉语语音情感识别领域中,已经达到世界先进水平。罗森林和潘丽敏等人【对情感计算的发展史、应用方向以及所需要的关键技术进行了深入的研究。在特定人语音情感识别方面,北京科技大学谷学静等人将技术应用于情感机器人的语音情感别技术研究中【。马希荣、刘琳和桑婧等人?】提出了基于情感计算的.系统结构模型。王志良等人】针对计算机如何能够进行情感的计算,提出了一种情感空间的概率模型并且对其进行了计算机仿真实验。宋亦旭等人总结研究了当前语音情感识别的应用发 ’展,实现了基于语音情感的控制机器人识别模型体系结构,并且通过仿真实验进行了认证。在非特定人语音情感识别方面,赵力教授是最早开展普通话语音情感识别的研究人员之一。他采用主元分析法进行普通话情感识别,通过录音方法录制同一脚本的情感语音和自然语音,提取语音的基频、能量、共振峰等作为特征向量,在较小的实验数据集中,对高兴、惊奇、愤怒和悲伤类情感的识别取得了不错的识别率。钱向民等人【】分析提取了四类语音情感特征参数,它们分别是:惊奇、愤怒、欢快、悲伤等种情感语音信息,其中提取的特征参数有:时间构造、振幅构造、基频信号的构造和共振峰的构造等特征参数, 并且与不带情感的中性语音信号进行比较分析,总结发现不同的情感语音信号的语音特征分布规律。赵力和王治平等人针对非特定人语音情感识别率不高的问题,采用支持向量机方法,对语音情感识别进行研究。詹永照等人【关于解决语音情感识别的识别率与识别速度问题,利用加权欧氏距离模板匹配的方法来进行语音情感识别。 .语音情感识别研究难点及趋势 ..语音情感识别研究的难点目前语音情感识别领域的研究热点包括:稳健语音情感识别、非特定人语音情感识别、说话人情感自适应技术、语言情感模型、高效的识别算法研究以及可信度评测算法研究。针对这些研究点,可看到语音情感识别需要进一步研究并解决的问题还有很多。主要难点江苏大学硕士研究生毕业论文有以下三个: 如何提高对自然语言情感的识别率现有的语音情感数据库大部分是由一些特定的表演人员和语音专家所录制的语音情感数据,自然语音情感很难得到。因此,在进行语音情感识别时所用的语音情感数据都是非自然语音,这样的语音情感识别会与自然语音下所建立的模型有差异,在实际应用中会比实验的识别率低。如何得到自然的情感语音,尽可能的录制现实生活中说话人的自然语音情感,建立自然语音数据库是语音情感识别中的一个难点所在。如何建立应对不同说话者或者同一说话者在不同环境下的情感模型,提取出说话者情感的个性特征和共性特征在对说话人情感进行识别时,要提取出个性特征,现有的特征参数已经被深入的研究,怎样得到新的特征参数,或者用线性和非线性变换的方法得到新的特征参数,进一步挖掘出隐藏在语音中的重要情感特征,删除冗余的特征,已经成为一个难题。如何剔除环境噪声和干扰,得到比较纯净的语音情感数据在语音情感识别的录音阶段,如何获得比较干净的语音数据,或者从带有噪声的语音情感数据中如何获得比较纯净的说话人的语音显得尤为重要。虽然许多方法已经被用来滤除噪音,但是在现实的应用场景中,环境噪声的影响和干扰很难得到有效的解决。本文对非特定人的语音情感模型进行深入研究,提出基于特征分组的多核融合自适应方法和模型参数自适应方法,解决语音情感模型因说话人不同而造成其识别性能下降的问题。 ..语音情感识别研究趋势虽然语音情感识别研究存在多个难点,但其有非常广阔的应用前景。近年来,大量学者在语音情感数据库建立、语音情感模型构建以及语音情感高效识别算法研究方面进行了深入的研究,将其应用于查询信息系统、网络教育、娱乐、医疗、智能机器人等方面,并取得了巨大的成就。未来的语音情感识别系统将更加智能,将更好地为人们提供服务,研究趋势有如下几个方面: 利用高性能的设备建立自然语音情感数据库随着科技的发展,高性能的语音信号采集设备将被应用于语音情感数据采集,通过与说话人自然状态下的情感语音对比,提取出说话人的个性特征和不依赖于说话人的共性特征,构建比较全面而真实的语音情感数据库。江苏大学硕士研究生毕业论文与人脸表情识别相结合构建双模型情感识别系统人脸表情特征丰富多样,通过人脸表情识别人们的情感已经取得不错的成绩,将人脸表情识别结果与语音情感识别结果融合,或者将部分人脸表情的特征与语音情感特征相结合,构建双模型情感识别系统,提高模型对说话人的情感识别率,这将是语音情感识别研究的一个趋势。与人体生理反应信号结合提高情感识别率人们的生理反应会因外界环境的变化而变化,最终影响人们的情感。提取说话人的生理反应特征以及心理特征参数,与说话人的语音情感特征相结合,构建情感模型,将有助于提高对说话人的情感识别率。将会是语音情感识别研究的又一个新趋势。 .论文的研究内容及主要工作通过广泛阅读国内外现有的关于非特定人语音情感识别技术和模型自适应技术的文献,比较和借鉴现有成功的语音情感自适应识别方法,选择有效的情感特征训练. 模型,利用训练后的.模型对新增说话人语音情感样本进行识别,然后把识别错误的语音情感样本作为自适应样本进行分析,从而提出自己的模型自适应算法,并开发相应的非特定人语音情感识别原型系统。论文的主要研究内容和工作包括以下几个方面: .研究基于支持向量机模型的语音情感自适应方法在语音情感识别中,基于.的情感模型已经获得了不错的识别性能,但当样本与模型中的支持向量有较大差异时,模型的识别性能明显下降,如何提高模型对新增说话人情感的识别能力成为一个研究热点。针对上述问题,提出一种基于错分样本近邻支持向量优选的语音情感自适应算法,充分利用被识别错误样本的特性来构建自适应训练集,通过最小序列化算法调整模型参数,提高模型对新增说话人情感的识别能力。研究语音情感特征组与支持向量机中核函数的匹配方法在基于模型的.中,语音情感特征与核函数是影响分类性能的关键因素,故如何充分利用核函数的特性与情感特征进行匹配至关重要。目前语音情感特征较多,对情感特征进行合理的分类有利于情感的识别。一般方法是将情感特征分为时域特征、频域特征和统计特征,并利用这些特征表示样本,训练.模型对情感进行识别。但该方法未能考虑特征与模型的匹配度,针对这一问题,提出一种分组后的情感特征组与核函江苏大学硕士研究生毕业论文数匹配的方法,首先利用能充分体现某组特征特性的核函数与该组特征相匹配,然后用训练集训练?模型,用得到的模型对自适应样本进行识别。当样本被识别错误时, 通过相似度矩阵来构建自适应训练集调整模型参数,提高模型对新增说话人情感的识别性能。在该方法中,虽然特征组具有局部性,但能更精细的刻画某类情感的特性。对本文提出的方法进行原型系统的开发和实验采用和结合的开发模式,设计实现非特定人语音情感识别原型系统, 通过大量的实验验证本文算法的有效性和稳定性。 .本文组织结构论文共分六章,主要内容概括如下: 第一章介绍课题的研究背景和研究意义,概述语音情感识别相关领域的研究现状及其应用,并详细介绍非特定人语音情感识别的现状及应用。最后提出并分析本文的主要研究工作。第二章综述语音情感识别研究中主要涉及的几个方面:语音信号的预处理、语音情感特征参数的提取及分组、语音情感模型的构建。通过对各自典型方法的比较,并对非特定人语音情感识别的关键问题进行分析,指出不足之处和需要继续研究的关键点。第三章针对在非特定人语音情感识别中的不足,提出基于错分样本近邻支持向量优选的语音情感自适应算法。利用中支持向量与错分样本的关系,在线调整参数和支持向量,增强对新增样本的识别能力,提高语音情感模型的泛化性能。第四章从特征按属性分组后与不同核函数的匹配性能的差异性出发,选择它们之间的最优匹配,提出了基于特征分组的多核融合语音情感自适应算法,用于提高自适应后的对非特定人语音情感的识别性能。第五章结合本文提出的两种自适应方法,利用和构建非特定人语音情感识别原型系统,并对系统设计过程和各模块功能进行详细的描述。第六章对全文的内容进行总结,并指出进一步研究的目标和方向。江苏大学硕士研究生毕业论文第二章非特定人语音情感识别技术概述语音情感识别是统计分类问题,主要包括三个步骤:情感语音信号预处理、特征提取和模型构建。情感语音信号的处理是剔除语音中的噪音,删除冗余数据,为后续流程提供纯净的语音;特征提取是从处理后的语音信号中提取说话人基本特征,并从中挑选对语音情感识别贡献大的语音情感特征;模型构建是利用数学建模和模式识别的相关知识,构建能对样本进行分类的语音情感模型。本章详细介绍语音情感识别的三个主要步骤。 .语音信号预处理语音情感识别不仅依赖于对语音信号产生原理的深入分析,并且也和影响语音信号产生的因素有密切关系。只有分析出可表示语音情感本质特征的参数,才有可能从语音中准确地识别出说话人的情感。在对语音的情感进行识别前,对语音的预处理必须先进行,去除语音中的噪音等对情感识别结果有不利影响的信息,然后加窗和分帧,便于利用“短时分析方法提取短时特征。最后利用端点检测的方法,将语音的静音段和有声段分开,减少静音段对情感识别的干扰。预加重由于语音信号的平均功率谱受声门激励和口鼻辐射的影响,语音信号从嘴唇辐射后有/倍频程的衰减。通常是频率越高相应的成分越小,高频部分的频谱比低频部分的难以获取,为此要在预处理中进行预加重处理。这主要通过预加重数字滤波器实现,预加重数字滤波器一般是一阶的,计算方法如下: 日一叫其中,‖是预加重系数,一般取值接近于。分帧加窗语音信号从整体来看是连续的,其特性及表征其本质特征的参数均是随时间而逐渐变化的,由此来看,它是一个非平稳态过程。但语音的形成过程与人体发音器官的运动密切相关,这种物理的运动比起声音振动的速度要慢得多,因此可以假定语音信号在短时内是平稳的,一般情况下在一这样的时间段内,其频谱特征和部分物理特征参量可近似看作是不变的。这样,可以采用平稳过程的分析处理方法来处理语音的短时特江苏大学硕士研究生毕业论文征。用这种“短时分析的方法处理的特征有短时能量、振幅等时域相关的参数。图.帧移与帧艮的不例帧正是建立在语音短时静止的基础上,而分帧可以将语音信号分割成更小的语音片段,分帧后的每一帧都可看作是静止的。虽然可以采用连续分段的方法,但一般采用如图.的交叠分段方法,使得帧与帧之间平滑过渡,保持连续性。前一帧与后一帧的交叠部分称为帧移。帧移与帧长的比值一般为/。分帧是用一定的窗函数?乘以刀, 从而形成加窗语音信号墨,玎邓刀宰,。理想窗函数的频率响应要求主瓣无限狭窄并且没有旁瓣即无频谱泄露,但在实际应用中是难以实现的。由于汉明窗的旁瓣衰减较大, 具有更平滑的低通特性,能够在较高程度上反映短时信号的频率特性,所以在语音信号数字处理中,汉明窗是最常用的一种窗函数,本文对语音信号的处理也采用汉明窗。汉明窗的表达式如下: 五书以虹翮八肛錾裂。’ 其中,?为帧长。采样周期/。、频率分辨率矽和窗口长度?之间存在如下关系: 赢 ::.式可知,采样周期一定,鲈随着窗宽度?的减小而增加。虽然频率分辨率提高,但时间分辨率降低。在对窗口长度的选择上,基因周期显得更加重要。通常认为在一个语音帧内应包含~个基因周期。但不同人的基因周期变化很大,所以?的选江苏大学硕士研究生毕业论文择比较困难,折衷的选择是?取点为宜。这样,语音信号就被分割成一帧一帧加过窗函数的短时信号,再把每一个短时语音帧看成平稳的随机信号。在进行处理时, 按帧从数据区中取出数据,处理完后再取下一帧,最后得到由每一帧参数组成的语音特征参数的时间序列。语音信号端点检测在语音信号的处理中,端点检测是区分语音段中有声部分和静音部分的重要技术, 它从包含语音的一段信号中准确地确定语音的起始点和终止点。这样,便于从语音段中剔除静音段,更加有效地对语音的有声部分进行处理。待分析的语音信号经过端点检测后,不仅能够减少语音情感特征的采集量,节约处理时间,还能排除无声段或噪声段的干扰,提高语音情感识别系统的性能。由于语音信号是时变非平稳信号,为了能将其视为短时平稳信号进行处理,需要对其进行分帧,分帧后可将每一帧都看作平稳信号,并且可以方便地进行端点检测。本文采用了基于短时能量和短时过零率的双门限端点检测法来实现端点检测算法。在此算法中,首先为短时能量和过零率分别确定两个门限,一个是最小门限值,其数值比较小, 对信号的变化比较敏感。另一个是最大门限值,数值比较大,信号必须达到一定的强度, 该门限才可能被超过。低门限超过未必就是语音的开始,有可能是由时间很短的噪声引起的,而高门限基本确信是由于语言信号引起的。整个语音信号的端点检测可以分为四个阶段:静音段、过渡段、语音段、结束。在静音段,如果能量或过零率超越了低门限,就开始标记起始点,进入过渡段。在过渡段中,由于参数的数值比较小,不能确定是否处于真正的语音段,因此,只要两个参数的数值都回落到低门限以下,就可以认为当前状态恢复到静音状态。而如果在静音段中两个参数中的任何一个超过了高门限,就可以确定进入语音段。因此,门限值的确定对语音段的检测相当重要。本文首先计算出背景噪声能量的统计特性,定出能量门限,然后利用能量门限来确定语音信号的起止点。短时帧能量为一帧采样点值的加权平方和。用邑表示,计算公式如下: ?【加,一聊】?【以刀一所】 ” 其中,为离散语音信号时间序列,?为汉明窗函数,?为窗长。在这里,窗函数?平方的物理含义是一个冲激响应为一所的滤波器。 ????????????????????????????~ 江苏大学硕士研究生毕业论文语音信号的短时过门限率为乙,计算公式如下: ? 乙?《洲功一刀一咿瞰,,一一刀锄瞰砂.刀一印?一刀吣一功其中,为计算得到的低门限值。本文根据录制的语音库,通过实验将值取为.。是语音信号的符号函数,其取值如下: 娜?,矗器髦其中,为语音信号。 .语音情感特征参数的提取语音之所以能够表达情感,是因为其中包含能体现情感特征的参数。语音中情感的变化通过特征参数的差异而体现。因此研究从语音信号中提取什么样的特征参数来反映情感状态的差别,对于语音情感识别具有极其重要的意义‘。一般来说,语音信号中的情感状态往往会通过语音韵律的变化表现出来,不使用原始的语音信号直接作为识别依据,而是通过使用一定的表示方法对原始的语音信号进行新的刻画表示,这种新的表示包含有语音信号的特定信息并能更好地反映语音的情感类别。比较理想的情感特征应具有以下四个特点。特征对情感具有明显的区分性作为情感特征,不论说话人是否相同,同一特征应因情感的不同而表现出较大的差异性,对于同类情感应具有较小的差异性。这样能够最大可能的区分情感,而不因说话人的不同降低情感区分度。特征有较强的鲁棒性语音录制时往往会受到环境影响,例如传输通道、噪音等。作为情感特征应对这些影响有较小的敏感度,尽量不受环境的影响,表现出好的稳定性。特征表示为计算机可识别信息语音的情感信息要能表示为计算机中的数据信息,通过数据来体现不同的情感信息, 只有表示为数据信息才能被计算机所识别。提取特征的效率江苏大学硕士研究生毕业论文特征的提取要消耗.,快速提取语音的情感特征能提高系统的性能。这样,在实时性要求比较高的场合就可以发挥重要作用。以上四点是选择情感特征的一个基本规则,能够满足这些条件的特征都应该被选作情感特征。目前语音情感识别所采用的特征大多是基于声学特征,也有部分学者把语音的高层信息作为情感特征。我们先将所有情感特征进行分类,然后分别进行阐述。 ..基于声学的语音情感特征基音频率语音激励一般分为浊音激励和清音激励。发清音时,声带处于松弛状态,不发生震动,气流通过声门直接进入声道。无论是摩擦音还是阻塞音,声道都被阻碍形成湍流, 所以清音激励相当于一个随机白噪声。发浊音时,气流通过紧绷的声带,对声带进行冲击而产生震动,这个震动频率称为基音频率,简称为基频。基频是情感识别中一个重要的特征参数。目前已经有很多文献对其进行了分析研究。但基频需要在较长的时间尺度下才能反映出其蕴含的信息,所以通常用基频统计特征来作为情感特征,如均值、最大值、标准差等【引。有时基频也会因说话人的不同而不同,因此在非特定人语音情感识别系统中也被看作为重要的情感特征参数。通常情况下,基音频率是先通过求基音周期然后求其倒数得到的。本文采用了自相关基因检测法来估计基音频率。下面是对每一帧进行基音周期估计的计算步骤。 .用的低通滤波器对一帧语音信号进行滤波,并去掉开头个输出值不用置,得到’,; . .分别求’,的前部个采样点和后部个采样点的最大幅度,并取其中较小的一个,乘以因子.作为门限电平; .用式进行中心削波和三电平削波; 聆互匀 , 五 . 刀为伽 ’力加勇加其幻他他执啵仉 ,。二....?、,..、.。 .用如下公式.求和,’刀的互相关值: 七?’?尼,,,,,?, . 江苏大学硕士研究生毕业论文其中,的取值范围相应于基音频率范围一,相应于短时能量; .求出?中的最大值‰; .如果‰.,则认为本帧为清音,令基音周期值,否则基音周期为使七取最大值时的位置的值,计算公式如下: 七.? 其中,为基音周期估值,为力和’门的互相关值。 .短时能量及短时振幅语音信号能量因人的情感不同而表现出较大差异,并且由于说话人的不同,语音信号能量也会有很大的不同。相关研究表明,人在高兴或惊奇时,能量值明显比悲伤或沮丧时高的多,喜欢大声说话的人比那些说话较为平缓的人的语音信号能量甚至大一倍, 故可采用短时分析技术,获得短时能量作为情感的一个重要特征参数,用于非特定人语音情感识别系统中。计算语音信号能量的方法如下: 语音波形时域信号为,,加窗分帧处理后得到的第帧语音信号为矗聊,则吒聊满足下式: 矗所聊???一。? :三嬲一’ 卜,骺其中,,丁,丁,?,?为帧长,丁为帧移长度。设第刀帧语音信号%坍的短时能量用表示,计算公式如下: ?而聊语音信号的振幅特征与各种情感信息具有较强的相关性,在我们的实际生活中体现的尤为明显,不同的说话人说同一句话时,声音有高有低。另外,当人们愤怒或者惊奇的时候,发出的音量往往变大,而当人们沮丧或悲伤的时候,往往讲话的声音很低。因此,可把振幅构造特性作为非特定人语音情感识别系统的重要特征参数加以分析研究。通过计算每帧语音信号的短时能量来衡量振幅构造,信号以的短时平均幅度函数定义如下: 江苏大学硕士研究生毕业论文 ’ ? 鸭?矗朋本文中求取语音信号每帧的短时能量,分析它们随时问的变化情况,主要针对振幅能量的平均值、极值、动态范围、标准差、中位数等特征进行比较。共振峰共振峰是反映声道特性的一个重要参数,它包括其位置和频带宽度。当说话人受外界环境影响,处于不同的情感状态时,由于每个人的心理状况不一样,每个人的神经所处的紧张程度也不同,从而使得声道在发同一个声音的时候发生形变,表现出差异性, 改变了声道的固有频率,这必然使共振峰的峰值发生改变。因此,把共振峰作为情感的一个重要参数是合理的。许多学者用线性预测方法提取每帧语音信号的共振峰参数。在文献【】中,作者提出共振峰的第一共振峰、第二共振峰、第三共振峰的峰值会随着情感状态的变化而变化, 且不同的人也会展现出差异性。因此,本文选取第一共振峰频率、第二共振峰频率兄、第三共振峰频率的平均值、最大值、动态变化范围、平均变化率、均方差、共振峰频率的/分位点、/分位点以及共振峰变化的/分位点、/分位点等统计特征作为非特定人语音情感识别用的特征参数。这罩的共振峰频率的平均变化率是指各帧语音信号的共振峰频率差分的绝对值的平均值。共振峰频率的/分位点就是共振峰频率动态范围的/点的值,定义如下: 一/共振峰频率的/分位点就是共振峰频率的平均值与最小值的平均值,定义如下: /一/ ? 特征人耳具有一些特殊的功能,这些功能使得人耳在嘈杂的环境中,以及各种变异情况下仍能正常地分辨出各种声音,其中耳蜗起了很关键的作用。研究者根据心理学实验得到了类似于耳蜗作用的一组滤波器组,就是频率滤波器组,频率与实际频率的具体关系为: / ? 利用这一听觉原理和倒谱的解相关特性,等【提出了梅尔频率倒谱系数。计算的具体步骤如下: 江苏大学硕士研究生毕业论文 .语音信号经过加窗分析后变为短时信号,用将这些时域信号,转换为频域信号沏,并由此计算它的短时能量谱。 .将尸?由在频域轴上的频谱转化为坐标上的以蚴,其中表示坐标频率,频率考虑了人耳的听觉特性,转换公式如下: ‰.. .在频域内将三角带通滤波器加于坐标得到滤波器组删。然后计算坐标轴上的能量谱均经过此滤波器的输出: 后玩】,,?, ? 其中,表示第滤波器,表示滤波器个数。 .如果秒%表示第个滤波器的输出能量,则频率倒谱%,在刻度谱上可以采用修改的离散余弦反变换求得。 ‰?喜眠竿删’?, 其中,为参数的阶数。有研究表明,尽管可以在干净语音情况下获得较高的识别率,但当语音信号的信噪比较低时,单纯用特征作为静态特征,其识别性能往往不能令人满意。而瞬态参数如参数则具有明显的环境鲁棒性,所以本文提取了的一阶参数和二阶参数。假设,,?,?为计算得到的一句情感语音的系数,那么它的一阶参数和二阶参数计算如下: ,,?,一一一,一,?,?一?一 ?一,?一?,?,???一,,?,一目前,在语音情感识别领域,哪些情感特征可以真正区分情感类别还没有达成共识。因此,许多研究人员总是提取尽可能多的特征,从中选取能与模型匹配最好的特征作为语音情感特征。在非特定人语音情感识别系统中,一般把能够区分不同人的情感的语音特征作为重要的情感特征参数。根据模式识别的相关知识,在各类别总体的先验概率分布和类条件概率均未知的情况下,模式识别问题需要进行有监督的学习,每一个样本都江苏大学硕士研究生毕业论文 ’要分配一个类别标识。在现实世界里,样本的类别相关特征是一种未知的先验知识,因此,模式识别往往想用较多的特征较好地表征类别。但是,在众多候选特征中往往包含着大量对类别区分问题相关性差,甚至不相关且冗余的特征。减少不相关和冗余特征的数量能够有效地减少学习算法的运算时间,甚至能够提升识别性能。 ..语音高层信息特征除了常用的声学特征外,也有研究人员从语言学的角度考虑语音信号中的情感分析, 开始考虑句子的语义成分,利用语句的语义和语法提供说话人的情感线索‘。等【研究发现,当对现实情感的语音进行情感识别时,因人们之间的生理和心理差异性,单独使用韵律特征是不充分的,必须使用其它的知识信息,如说话人方式,情感用词等作为补充。在对非特定人的情感进行识别时,说话方式、口音、常用情感词汇等,作为情感识别的特征特别有效。另外,发现人们共同的常用情感词汇、挖掘出语音中的语义信息也能够提高系统的识别性能。 .语音情感识别方法对语音信号进行处理、提取其特征之后,必须建立有效的情感模型才能对语音情感进行识别,建立模型也是语音情感识别的核心问题。由模式识别的知识,我们可以获得多种有效的建模方法,在特定人语音情感识别系统中,常用的方法有:、、、神经网络、等,各个模型因应用的场合不同而各有优劣。在非特定人语音情感识别系统中,识别模型的构建有两种方法:其一,多模型融合。选取多个单个模型,互相弥补不足,通过对各个模型确立权重的方法判决情感的识别结果,以提高对非特定人语音情感的识别率;其二,模型自适应。通过自适应方法对原模型的参数进行自适应的调整,利用较少的说话人样本使模型性能大幅度提高。本文主要是针对非特定人语音情感识别进行研究,故重点讲解非特定人语音情感识别方法。 ..常用语音情感识别方法支持向量机是在机器学习中使用最优化方法的先驱,他最早提出了最大间隔的思想, 通过分类面将空间中不同类别的样本分开,。后来,贝尔实验室研究人员等人江苏大学硕士研究生毕业论文在比较严密的数学理论基础上,发展了一系列与核函数相关联的各种支持向量机 ,。它们是全新的机器学习算法,这种机器学习算法基于结构风险最小化原则,能较好的解决小样本分类问题【。由于这种算法主要思想是通过一个线性变换,将数据映射到高维空间,以增加数据的可分性,使得原本在二维空间内线性不可分的样本在高纬空间内线性可分,并建立在坚实的数学理论基础上,故能够很好的克服维数灾难和过拟合等传统算法所不可避免的问题。近年来,作为一种有效的分类工具,因其稳定的分类性能和良好的推广能力,被广泛应用与语音情感识别研究】。本文的模型采用,故将进行详细讲解。对于任意两类分类问题,设线性可分样本集是由,,...朋组成的,中样本属于其中一类用只标记,属于另一类则用乃标记。在一个维空间中,线性判别函数如下: 其中,表示超平面的法向量,是输入向量。存在? ?,满足如下不等式: 、陋, 饿慧三二: 薯,乃一由公式口得: 只?? 对于任意的,,?,?,参数,唯一确定的用来分类的超平面方程如下:两类样本间的间隔用表示: 肛赢求最大间隔问题可转化为如下的最优问题: 卜?如 .只’?‘?一参,,,?,? 用拉格朗日乘子法对上.式最优问题进行求解,上最优问题可转化为其对偶问题,此问题仅与拉格朗日乘子相关。江苏大学硕士研究生毕业论文, 、 “寺??咒乃而,一?% 口‘, 乏 ?江’,?’? 和。拉格朗日乘子和每个训练样本是一一对应的,如果拉格朗日乘子确定,那么的计算公式如下: ? ?, 的计算公式如下: 儿一? ? 但是,不是所有的数据集都是线性可分的,如上的超平面不能把线性不可分的两类样本完全分开。为了解决此线性不可分问题,和提出了带惩罚因子和松弛变量的支持向量机【】。 ,。;三“善毒 . .少,’.‘?一专,?, ,?, 专? 新的最优问题? 的对偶问题为: 卜攀跏懈咿善哆 ,?, ? ?; ,?, ?? 中核函数的选择影响分类器的性能,如何根据语音样本数据选择和构造合适的核函数及确定核函数的参数等问题缺乏相应的理论指导,所以在多数文献中采用实验的方法进行确定。另外,虽然多类的训练算法已被提出,但用于多分类问题的有效算法及多类的优化设计等仍需进一步研究。隐马尔可夫模型是马尔可夫链的一种,是基于转移概率和传输概率的随机模型。它的状态不能直接观察到,每个观测向量都是通过某些概率密度分布表现为各江苏大学硕士研究生毕业论文种状态,每一个观测向量是由一个具有响应概率密度分布的状态序列产生。所以,隐马尔可夫模型是一个双重随机过程。它既能用短时模型即状态解决声学特性相对稳定段的描述,又能用状态转移规律刻画稳定段之问的时变过程。因此,已经成为基于时序特征的语音情感识别中常用的模型。当采用对语音进行情感识别时,不是单独利用语音的时序特征,而是把情感特征和一个状态转移模型联系起来,它充分体现了语音时序特征的动态变化,不同的情感可以由不同的模型来表现。作为统计概率模型已经被证明是一种很好的语音情感识别模型【】,它适合处理连续信号。基于的语音情感识别扩展性好,增加新样本时不需要对所有的样本进行训练,只需训练新样本;缺点是模型结构参数的选择仍与待处理的语音数据有关,需由实验确定,并且训练时的计算量较大。神经网络神经网络可视为由大量相连的简单处理器神经元构成的大规模并行计算系统,具有学习复杂的非线性输入输出关系的能力,可以利用训练过程来适应数据,对于模型和规则的依赖性较低。对于语音情感识别问题,根据使用的特征和情感分类的不同,可以使用不同的网络拓扑结构。对神经网络系统进行了深入研究,整个神经网络个子网构成,每个子网处理一种特定的情感,这种网络具有良好的可扩展性,增加情感类别时不需要重新训练整个网络。测试发现,负面的情感,如愤怒和悲伤容易识别,但正面的情感,比如高兴,不易识别。神经网络的自学习功能非常强大,由于语音样本特征向量与情感的许多规律进行显性的描述是困难的,而神经网络则可以通过反复学习的过程获得对这些规律的隐性表达,其在语音情感识别中具有独特的优势。为充分学习这些隐性规则,神经网络方法一般都采取了含有大量神经元的隐含中间层,从而导致复杂度和计算量较高。高斯混合模型高斯混合模型本质上是一种多维概率密度函数,可以用来表示语音特征矢量的概率密度函数。它可以看作一种状态数为的连续分布。通过对情感特征矢量聚类,把每一类看作是一个多维高斯分布函数,然后求出每一类的均值、协方差矩阵和出现的概率,将此作为每种情感的训练模板。识别时将测试矢量输入每种情感模板,最大后验概率即为识别结果。文献【】在其情感识别实验中使用识别七种情感状态,实验结果表明,使用的识别率高于采用短时特征矢量的分类器的识别率。它的优点是可以平滑地逼近任意形状的概率密度函数,每个密度分布可以表示出基本声学类,并且模型江苏大学硕士研究生毕业论文稳定、参数容易处理。但的阶数和初值较难确定,特别是阶数难以从理论上推导出来,因此,通常是根据不同的语音样本由实验确定。 ..模型自适应方法自适应算法最大后验概率算法是自适应算法中比较经典的算法之一,它有很好的渐进性, 可以充分利用语音情感的细节信息。它通过理论给出了结合先验知识和自适应数据的最优解。在模型的训练过程中结合了先验信息,避免了自适应数据估计的错误,当自适应数据不断增加时,自适应效果稳步提高。估计过程如下: 假设观察值五,而,?,‘是符合均值未知,方差仃已知的高斯分布,似然函数矽可以表示为: 川舻南州一丢喜孚】咧一丢喜孚】任, 其中,痧为样本均值,仃为样本方差。对上式改写可得: ?叫一虿咿一‖眈专‖ 其中,一善西,即,恐,?,吒的样本均值。同时假设矽的共轭先验分布也是高斯分布并且均值是‖,方差是,。经计算可以解得: ‰符把公式?里的符号进行变量替换,可以得到对于高斯分布均值的重估的一般公式: 三。:?以? ’飞式中,以与心分别表示自适应前后的均值向量,仇表示对应的第个高斯分布的训练样本总数。表示用最大似然估算出的对应该高斯的样本均值向量。吒是模型先验分布的江苏大学硕士研究生毕业论文一个重要参数,是重估中十分重要的因素,它控制着自适应对先验信息以的依赖程度,对自适应效果有很大的影响。对于“的估计,可以预先确定,也可以在训练过程中由数据估计。求靠的一种方法是利用自适应数据的均值历和初始模型的高斯均值肌距离的倒数来估算气,从式?还可以看出对于自适应数据比较少的情况,相应变大。这说明了自适应方法随着自适应数据数量的增加,重估逐渐逼近重估, 当训练数据趋于无穷时,用法所得到的模型与充分语料所得到的模型相等价。公式可转换为如下形式: ’ ?‘一‖。???号一 %?% 其中,%主??端,是表示对应的训练数据?,以,?。,是一个高斯分布,?是高斯分布的协方差矩阵,味是混合系数。从?式中可以看出自适应调整后的均值向量实际是初始值与相应各训练数据的线性加权之和。虽然方法使模型获得不错的性能,但是其收敛速度比较慢,并且只能对有观测数据的模型自适应,无法处理没有观测数据

                    本文档为【基于多核融合和模型参数自适应的非特定人语音情感识别的研究（可编辑）】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

基于多核融合和模型参数自适应的非特定人语音情感识别的研究（可编辑）

你可能还喜欢