首页 基于多核融合和模型参数自适应的非特定人语音情感识别的研究(可编辑)

基于多核融合和模型参数自适应的非特定人语音情感识别的研究(可编辑)

举报
开通vip

基于多核融合和模型参数自适应的非特定人语音情感识别的研究(可编辑)基于多核融合和模型参数自适应的非特定人语音情感识别的研究(可编辑) 基于多核融合和模型参数自适应的非特定人语音情感 识别的研究 分类号: 殴:丝: 编号:? ? 垒:主 江蒜大擎 硕士学位论文 ?,尊智.。,曙 基于多核融合和模型参数自适应的非特定人语音情感识别研究 指导教师 詹丞照 : 作者姓名 王治缝 申请学位级别 亟? 专业名称土簋扭应用撞垄. 论文提交日期 生鱼旦 生鱼目 论文答辩日期. 学位授予单位和日期 江菱太堂 生鱼且 评阅人独创.性声明 本人郑重声明:所呈交的学...

基于多核融合和模型参数自适应的非特定人语音情感识别的研究(可编辑)
基于多核融合和模型参数自适应的非特定人语音情感识别的研究(可编辑) 基于多核融合和模型参数自适应的非特定人语音情感 识别的研究 分类号: 殴:丝: 编号:? ? 垒:主 江蒜大擎 硕士学位论文 ?,尊智.。,曙 基于多核融合和模型参数自适应的非特定人语音情感识别研究 指导教师 詹丞照 : 作者姓名 王治缝 申请学位级别 亟? 专业名称土簋扭应用撞垄. 论文提交日期 生鱼旦 生鱼目 论文答辩日期. 学位授予单位和日期 江菱太堂 生鱼且 评阅人独创.性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研 究工作所取得的成果。除文中已注明引用的内容以外,本论文不包含任何其他 个人或集体已经发表或撰写过的作品成果,也不包含为获得江苏大学或其他教 育机构的学位或证书而使用过的材料。对本文的研究做出重要贡献的个人和集 体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承 担。 学位论文作者签名: 王多声律 二年么月日学位论文版权使用授权书 江苏大学、中国科学技术信息研究所、国家图书馆、中国学术期刊光盘 版电子杂志社有权保留本人所送交学位论文的复印件和电子文档,可以采用 影印、缩印或其他复制手段保存论文。本人电子文档的内容和纸质论文的内容 相一致,允许论文被查阅和借阅,同时授权中国科学技术信息研 究所将本论文江苏大学硕士研究生毕业论文 要 摘 语音情感识别是情感识别的~个重要分支,它利用计算机及其辅助设备提 取说话人的情感特征, 分析 定性数据统计分析pdf销售业绩分析模板建筑结构震害分析销售进度分析表京东商城竞争战略分析 说话人的情感状态及其变化,进而确定说话人的心 理情绪或思想活动,实现人机之间更自然、更智能化的交互。目前,特定人语 音情感识别研究已经取得了巨大的成就,特别是在远程教育、医疗、通信、刑 事侦查等方面已经得到大量应用;但现实世界中,非特定人语音情感识别的应 用领域更加普遍,故针对非特定人的语音情感识别研究具有更大的现实意义。 本文正是针对非特定人语音情感识别过程中识别模型对待识别样本的适应性问 题,提出改进方法,并通过实验进行有效性验证。论文主要工作如下: 提出基于错分样本近邻支持向量优选的语音情感自适应识别算法。该算 法用语音情感训练集样本训练的初始模型对新增的语音情感样 本进行识别,把 被识别错误的语音情感样本作为自适应样本,与对其进行识别的模型中的近邻 支持向量一起构建自适应训练集,根据.模型参数拉格朗乘子总和保持 不变的原则,通过算法调整模型的支持向量和对应的拉格朗日乘子,从而 提高模型的泛化性能。 提出基于特征分组的多核融合语音情感自适应识别算法。此算法首先把 语音情感特征按照待识别样本集的特性分为若干组,然后根据各组特征的特性 采用不同的核函数训练.模型,并分别把各个模型支持向量间的相似度作 为其权重系数,通过自适应样本不断调整权重系数和模型参数,使得?模 型的参数能够随着待识别语音情感样本特性的变化而自适应地变化。这种特征 集与核函数相匹配的方法最大程度的利用了不同特征的特性和不同核函数的优 点,使得模型的识别性能进一步提高。 采用和结合的开发模式,实现了非特定人语音情感识别 原型系统。其中语音信号的读取和处理以及情感特征的提取均采用编写 代码实现,模型训练、情感识别功能用编写代码实现。最后,通过与其 它算法实验结果的对比和分析,证明了本文算法的有效性和稳定性。 关键词:语音情感识别,多核融合,特征分组,支持向量,自适应模型江苏大学硕士研究生毕业论文, ’, ’ ’,, .. ,,,, . . . . , : ? ? ? . ? , ? , ., . ? . ,, .,, ? . .,江苏大学硕士研究生毕业论文 .‘ ? .,. , .,.,., : , , ,江苏大学硕士研究生毕业论文 目 录 第一章绪论??. .课题研究背景及意义??.. .非特定人语音情感识别相关领域应用? .非特定人语音情感识别研究现状 ..国外研究现状 ..国内研究现状 .语音情感识别研究难点及趋势? ..语音情感识别研究的难点. ..语音情感识别研究趋势?.. .论文的研究内容及主要工作.本文组织结构第二章非特定人语 音情感识别技术概述.. .语音信号预处理? .语音情感特征参数的提取??. ..基于声学的语音情感特征. ..语音高层信息特征 .语音情感识别方法??. ..常用语音情感识别方法??.....? ..模型自适应方法? . 小结 学校三防设施建设情况幼儿园教研工作小结高血压知识讲座小结防范电信网络诈骗宣传幼儿园师德小结 ??一 第三章基于错分样本近邻支持向量优选的语音情感自适应识别 算法?. .概述?.. .自适应训练集样本选择方法?. ..样本相似性度量方法..近邻样本选择规则. .模型参数优化方法 .基于错分样本近邻支持向量优选的语音情感自适应识别算 法??. .非特定人语音情感识别实验.实验结果比较与分析?.. .小结第四章基于特征分组的多核融合语音情感自适应识别算 法? 江苏大学硕士研究生毕业论文 .概述.特征分组及相似度矩阵的计算. . .中常用核函数?. .多核融合语音情感自适应识别算法描述??一 .语音情感自适应识别实验 .实验结果分析与比较?。 .叫、结第五章非特定人语音情感识别原型系统的 设计 领导形象设计圆作业设计ao工艺污水处理厂设计附属工程施工组织设计清扫机器人结构设计 与实现??. .概述.系统功能分析?. .模块设计与实现.. ..语音处理模块..情感特征提取模块 ..模型设计模块..自适应模块 .非特定人语音情感识别原型系统功能简介?. .小结第六章 工作总结 关于社区教育工作总结关于年中工作总结关于校园安全工作总结关于校园安全工作总结关于意识形态工作总结 与展望.论文工作总结?.. .下一步工作展望. 致射?.. 参考文献. 攻读硕士学位期间完成的论文和参与的科研项目?江苏大学硕士研究生毕业论文 第一章绪论 .课题研究背景及意义 情感不仅是人类对外界事物的一种本能反应,也是人们自身心理状况的一种外在表 现。它同人的理性思维能力一样,在人们的同常生活、工作、学习和交流中都发挥着巨 大作用、扮演着重要的角色。它不仅可以通过肢体语音展现出来,而且可以通过面部表 情、语音等来体现。近年来,随着计算机技术的飞速发展,人工智能和人机交互技术也 取得巨大成就。语音作为人机交互最方便、最有效、最直接的途 径越来越受重视。为了 能使计算机更好地为人类服务,人机交互更加自然、智能,大量学者对语音情感进行深 入研究并将其应用于人机交互,构建语音情感识别系统,期望能使计算机与人能像人与 人之间一样自然、亲切和生动的进行交互【】。 语音情感识别可以分为特定人语音情感识别和非特定人语音情感识别。对于特定人 语音情感识别的研究已经取得了巨大的成就,并在多个领域得以应用。虽然非特定人语 音情感识别也取得一定进展,但与特定人语音情感识别相比,还相当薄弱。在现实世界 中,更多的是对非特定人语音情感识别的应用。因此,能满足各种环境条件的非特定人 语音情感识别系统将有更广阔的发展空间,具有更重要的应用价值和现实意义。 .非特定人语音情感识别相关领域应用 近些年来,随着社会经济的发展、人们对智能化生活的美好向往,基于语音情感的 人机交互方式得到广泛应用。它不仅在科技发展、多学科交叉发展方面具有巨大的推动 作用,而且在通讯、教育、医疗、娱乐、科技等多个领域改善着 人们的生活方式。下面 分别从各个领域介绍语音情感识别的应用前景。 多种信息查询系统 常用的信息查询方式有两种:基于文本的和基于语音的交互式操作。基于文本的查 询系统通过输入相应指令或待查询信息获取相应结果;基于语音技术的查询系统更加简 单、方便、快捷。将语音情感识别技术应用于信息查询系统能使这些操作更加智能。在 这类查询系统中,计算机能对用户的情感进行分析,提供更加人性化和个性化的服务。 如在银行查询系统中,如果用户查询时比较着急,可对其建议到人工服务窗口,由服务 人员为其服务,以最大可能满足人们的需求。 江苏大学硕士研究生毕业论文 多媒体教学和网络教育 在多媒体教学和网络教育中,语音教学可使所有人都有机会从网络上获取更多更好 的教育资源,能使人们按照自己的需求学习不同的专业知识,但这种教学方式机械、呆 板。若将语音情感识别加入这种教育方式,则能使用户与计算机的交互更加自然。带有 情感的交流,能提高用户的学习效率,增加用户对教学方式的满意度。 远程医疗 将语音情感识别系统加入到医疗体系,在病人与医疗辅助系统进行交互时,有助于 改善病人的心理状况,减轻病人面对病情的心理压力,增强病人病情好转的信心。另外, 语音情感识别系统也能使不具备说话能力的残疾病人得到较好的服务,同时,面向此类 病人的语音情感输出系统也正在研究【。 游戏和虚拟平台 游戏作为人们休闲娱乐的一种方式,已经吸引了越来越多的群体参与其中。但用户 与游戏角色的语音交流或者通过语音进行游戏操作的方式,仍然是平淡、枯燥、乏味的。 将语音情感识别加入游戏中:能增强用户体验,强化用户与游戏角色的情感交流,使用 户在玩游戏过程中的感官体验更加真实。 智能机器人 目前智能机器人的研究吸引了大量的科研人员,因为它具有广阔的应用前景。将语 音情感识别应用其中,将会使得这种融合了非特定人语音情感识 别系统的智能机器人识 别人类情感,并通过对情感的分析结果,’更好的与人们交流。 今天,我们已经看到带有非特定人语音情感识别系统的应用,在不久的未来,非特 定人语音情感识别系统将走进每个人的日常生活,使人们更加自然、亲切、智能地与计 算机进行交互。 .非特定人语音情感识别研究现状 语音情感识别是一个具有挑战性的研究难题,但由于其广阔的应用前景,仍然吸引 了大量的学者对其进行深入的研究,并取得了巨大成就。按照说话人是否相同可将语音 情感识别分为:特定人语音情感识别和非特定人语音情感识别。目前,特定人语音情感 识别技术已经相当成熟,基本能够满足人们的需求,并在许多领域得到应用。非特定人 语音情感识别由于受环境、说话人的差异性等多方面的影响,还不能获得令人满意的性 江苏大学硕士研究生毕业论文 能。但是在现实世界中非特定人语音情感识别的应用更加普遍,因此,对非特定人语音 情感识别的研究将有更大的现实意义。本节将详细地介绍非特定 人语音情感识别的研究 现状。 ..国外研究现状 和 国外对特定人语音情感识别的研究已经非常多。比较早的有 ?教授一起领导的情感语音小组,他们对心理学和语音分析进行了研究,收 集并创建了第一个大规模的高自然度的语音情感数据库,开发了工具【】, 记录从语音中感知到的情感信息。同时,开发了一个分析语音情感的工具’】, 用统计的方法分析语音的声学特性与情感的相关性,并对高兴、愤怒、害怕、悲伤类 情感进行了识别,用基于判别式的分析方法达到了%的识别率。教授组建了世界上第一个大规模研究情感及其计算的科研机构。 开发了第一个情感语音合成系统“情感编辑器,,】,通过声学参数来合成情感语音, 所使用的声学参数有:基频、时长、音质和清晰度。通过实验,验证了情感状态与声学 参数的关联性。虬睛感编辑器”是第一个描述声学参数和情感状态关系的系统,为语音 情感特征的选择奠定了基础。 对于非特定人语音情感识别的研究相对较少,还处于起步阶段。 在 媒体实验室完成了通过对驾车时司机语音的重音分析,对司机驾车时的感知负荷新 型评估,从而有效地提高车辆行驶的安全。用能量算予作为声学特征,用动态特 征集训练混合隐马尔科夫模型.,用全局平均特征训练支持向量机及多层感知器 ,,并将训练模型融合。对非特定人的情感识别进行了实验,对训练集得到 .%的识别率,对测试集得到.%的识别率。用与两种模型融合的方法 也获得了不错的识别率。另外,还完成了关于语音情感识别的计算模型研究 【 】等人从语音情感中提取出个特征,利用带回溯的双向搜索算法 对非特定人的负面情感进行识别,在柏林语音情感数据库上获得了平均.%的识别率。 教授组建了一个语音情感组,致力于情感语音的声学分析、合成和识别, 他领导的语音情感组将语音的情感识别技术集成入语音对话系统中,首次将语音的声学 信息、词汇和语义信息结合在一起进行语音情感状态的识别,通过实验取得不错的识别 率【】。 江苏大学硕士研究生毕业论文 ?等人采用神经网络构建了语音情感识别模型。这个模型由个子网构成, 每个子网处理一种特定的情感,通过实验发现,此模型对积极的情感能获得较好的识别 结果。 ..国内研究现状 在国内,语音情感识别起步较晚,但也取得了不错的成就,基本上达到了国外同步标 准。特别是在汉语语音情感识别领域中,已经达到世界先进水平。罗森林和潘丽敏等人【 对情感计算的发展史、应用方向以及所需要的关键技术进行了深入的研究。在特定人语音 情感识别方面,北京科技大学谷学静等人将 技术应用于情感机器人的语音情感别 技术研究中【 。马希荣、刘琳和桑婧等人?】提出了基于情感计算的.系统结构模 型。王志良等人】针对计算机如何能够进行情感的计算,提出了 一种情感空间的概率模型 并且对其进行了计算机仿真实验。宋亦旭等人总结研究了当前语音情感识别的应用发 ’展,实现了基于语音情感的控制机器人识别模型体系结构,并且通过仿真实验进行了认证。 在非特定人语音情感识别方面,赵力教授 是最早开展普通话语音情感识别的研究人员之 一。他采用主元分析法进行普通话情感识别,通过录音方法录制同一脚本的情感语音和自 然语音,提取语音的基频、能量、共振峰等作为特征向量,在较小的实验数据集中,对高 兴、惊奇、愤怒和悲伤类情感的识别取得了不错的识别率。钱向民等人【】分析提取了四 类语音情感特征参数,它们分别是:惊奇、愤怒、欢快、悲伤等种情感语音信息,其中 提取的特征参数有:时间构造、振幅构造、基频信号的构造和共振峰的构造等特征参数, 并且与不带情感的中性语音信号进行比较分析,总结发现不同的情感语音信号的语音特征 分布规律。赵力和王治平等人 针对非特定人语音情感识别率不高的问题,采用支持向量 机方法,对语音情感识别进行研究。詹永照等人【关于解决语音 情感识别的识别率与识别 速度问题,利用加权欧氏距离模板匹配的方法来进行语音情感识别。 .语音情感识别研究难点及趋势 ..语音情感识别研究的难点 目前语音情感识别领域的研究热点包括:稳健语音情感识别、非特定人语音情感识别、 说话人情感自适应技术、语言情感模型、高效的识别算法研究以及可信度评测算法研究。 针对这些研究点,可看到语音情感识别需要进一步研究并解决的问题还有很多。主要难点 江苏大学硕士研究生毕业论文 有以下三个: 如何提高对自然语言情感的识别率 现有的语音情感数据库大部分是由一些特定的表演人员和语音专家所录制的语音情 感数据,自然语音情感很难得到。因此,在进行语音情感识别时所用的语音情感数据都 是非自然语音,这样的语音情感识别会与自然语音下所建立的模型有差异,在实际应用 中会比实验的识别率低。如何得到自然的情感语音,尽可能的录制现实生活中说话人的 自然语音情感,建立自然语音数据库是语音情感识别中的一个难点所在。 如何建立应对不同说话者或者同一说话者在不同环境下的情感模型,提取出说话 者情感的个性特征和共性特征 在对说话人情感进行识别时,要提取出个性特征,现有的特征参数已经被深入的研 究,怎样得到新的特征参数,或者用线性和非线性变换的方法得到新的特征参数,进一 步挖掘出隐藏在语音中的重要情感特征,删除冗余的特征,已经成为一个难题。 如何剔除环境噪声和干扰,得到比较纯净的语音情感数据 在语音情感识别的录音阶段,如何获得比较干净的语音数据,或者从带有噪声的语音 情感数据中如何获得比较纯净的说话人的语音显得尤为重要。虽然许多方法已经被用来滤 除噪音,但是在现实的应用场景中,环境噪声的影响和干扰很难得到有效的解决。 本文对非特定人的语音情感模型进行深入研究,提出基于特征分组的多核融合自适应 方法和模型参数自适应方法,解决语音情感模型因说话人不同而造成其识别性能下降的问 题。 ..语音情感识别研究趋势 虽然语音情感识别研究存在多个难点,但其有非常广阔的应用前景。近年来,大量 学者在语音情感数据库建立、语音情感模型构建以及语音情感高效识别算法研究方面进 行了深入的研究,将其应用于查询信息系统、网络教育、娱乐、医疗、智能机器人等方 面,并取得了巨大的成就。未来的语音情感识别系统将更加智能,将更好地为人们提供 服务,研究趋势有如下几个方面: 利用高性能的设备建立自然语音情感数据库 随着科技的发展,高性能的语音信号采集设备将被应用于语音情感数据采集,通过 与说话人自然状态下的情感语音对比,提取出说话人的个性特征和不依赖于说话人的共 性特征,构建比较全面而真实的语音情感数据库。 江苏大学硕士研究生毕业论文 与人脸表情识别相结合构建双模型情感识别系统 人脸表情特征丰富多样,通过人脸表情识别人们的情感已经取得不错的成绩,将人 脸表情识别结果与语音情感识别结果融合,或者将部分人脸表情 的特征与语音情感特征 相结合,构建双模型情感识别系统,提高模型对说话人的情感识别率,这将是语音情感 识别研究的一个趋势。 与人体生理反应信号结合提高情感识别率 人们的生理反应会因外界环境的变化而变化,最终影响人们的情感。提取说话人的 生理反应特征以及心理特征参数,与说话人的语音情感特征相结合,构建情感模型,将 有助于提高对说话人的情感识别率。将会是语音情感识别研究的又一个新趋势。 .论文的研究内容及主要工作 通过广泛阅读国内外现有的关于非特定人语音情感识别技术和模型自适应技术的文 献,比较和借鉴现有成功的语音情感自适应识别方法,选择有效的情感特征训练. 模型,利用训练后的.模型对新增说话人语音情感样本进行识别,然后把识别错误 的语音情感样本作为自适应样本进行分析,从而提出自己的模型自适应算法,并开发相 应的非特定人语音情感识别原型系统。论文的主要研究内容和工作包括以下几个方面: .研究基于支持向量机模型的语音情感自适应方法 在语音情感识别中,基于.的情感模型已经获得了不错的识别性能,但当样本 与模型中的支持向量有较大差异时,模型的识别性能明显下降,如何提高模型对新增说 话人情感的识别能力成为一个研究热点。针对上述问题,提出一种基于错分样本近邻支 持向量优选的语音情感自适应算法,充分利用被识别错误样本的特性来构建自适应训练 集,通过最小序列化算法调整模型参数,提高模型对新增说话人情感的识别能 力。 研究语音情感特征组与支持向量机中核函数的匹配方法 在基于模型的.中,语音情感特征与核函数是影响分类性能的关键因素,故如 何充分利用核函数的特性与情感特征进行匹配至关重要。目前语音情感特征较多,对情 感特征进行合理的分类有利于情感的识别。一般方法是将情感特征分为时域特征、频域 特征和统计特征,并利用这些特征表示样本,训练.模型对情感进行识别。但该方 法未能考虑特征与模型的匹配度,针对这一问题,提出一种分组 后的情感特征组与核函 江苏大学硕士研究生毕业论文 数匹配的方法,首先利用能充分体现某组特征特性的核函数与该组特征相匹配,然后用 训练集训练?模型,用得到的模型对自适应样本进行识别。当样本被识别错误时, 通过相似度矩阵来构建自适应训练集调整模型参数,提高模型对新增说话人情感的识别 性能。在该方法中,虽然特征组具有局部性,但能更精细的刻画某类情感的特性。 对本文提出的方法进行原型系统的开发和实验 采用和结合的开发模式,设计实现非特定人语音情感识别原型系统, 通过大量的实验验证本文算法的有效性和稳定性。 .本文组织结构 论文共分六章,主要内容概括如下: 第一章介绍课题的研究背景和研究意义,概述语音情感识别相关领域的研究现状及 其应用,并详细介绍非特定人语音情感识别的现状及应用。最后提出并分析本文的主要 研究工作。 第二章综述语音情感识别研究中主要涉及的几个方面:语音信号 的预处理、语音情 感特征参数的提取及分组、语音情感模型的构建。通过对各自典型方法的比较,并对非 特定人语音情感识别的关键问题进行分析,指出不足之处和需要继续研究的关键点。 第三章针对在非特定人语音情感识别中的不足,提出基于错分样本近邻支持向 量优选的语音情感自适应算法。利用中支持向量与错分样本的关系,在线调整 参数和支持向量,增强对新增样本的识别能力,提高语音情感模型的泛化性能。 第四章从特征按属性分组后与不同核函数的匹配性能的差异性出发,选择它们之间 的最优匹配,提出了基于特征分组的多核融合语音情感自适应算法,用于提高自适应后 的对非特定人语音情感的识别性能。 第五章结合本文提出的两种自适应方法,利用和构建非特定人语音 情感识别原型系统,并对系统设计过程和各模块功能进行详细的描述。 第六章对全文的内容进行总结,并指出进一步研究的目标和方向。 江苏大学硕士研究生毕业论文 第二章非特定人语音情感识别技术概述 语音情感识别是统计分类问题,主要包括三个步骤:情感语音信号预处理、特征提 取和模型构建。情感语音信号的处理是剔除语音中的噪音,删除冗余数据,为后续流程 提供纯净的语音;特征提取是从处理后的语音信号中提取说话人基本特征,并从中挑选 对语音情感识别贡献大的语音情感特征;模型构建是利用数学建模和模式识别的相关知 识,构建能对样本进行分类的语音情感模型。本章详细介绍语音情感识别的三个主要 步骤。 .语音信号预处理 语音情感识别不仅依赖于对语音信号产生原理的深入分析,并且也和影响语音信号 产生的因素有密切关系。只有分析出可表示语音情感本质特征的参数,才有可能从语音 中准确地识别出说话人的情感。在对语音的情感进行识别前,对语音的预处理必须先进 行,去除语音中的噪音等对情感识别结果有不利影响的信息,然后加窗和分帧,便于利 用“短时分析方法提取短时特征。最后利用端点检测的方法,将语音的静音段和有声 段分开,减少静音段对情感识别的干扰。 预加重 由于语音信号的平均功率谱受声门激励和口鼻辐射的影响,语音信号从嘴唇辐射后 有/倍频程的衰减。通常是频率越高相应的成分越小,高频部分的频谱比低频 部分的难以获取,为此要在预处理中进行预加重处理。这主要通过预加重数字滤波器实 现,预加重数字滤波器一般是一阶的,计算方法如下: 日一叫 其中,‖是预加重系数,一般取值接近于。 分帧加窗 语音信号从整体来看是连续的,其特性及表征其本质特征的参数均是随时间而逐渐 变化的,由此来看,它是一个非平稳态过程。但语音的形成过程与人体发音器官的运动 密切相关,这种物理的运动比起声音振动的速度要慢得多,因此可以假定语音信号在短 时内是平稳的,一般情况下在一这样的时间段内,其频谱特征和部分物理特征参 量可近似看作是不变的。这样,可以采用平稳过程的分析处理方法来处理语音的短时特 江苏大学硕士研究生毕业论文 征。用这种“短时分析的方法处理的特征有短时能量、振幅等时域相关的参数。 图.帧移与帧艮的不例 帧正是建立在语音短时静止的基础上,而分帧可以将语音信号分割成更小的语音片 段,分帧后的每一帧都可看作是静止的。虽然可以采用连续分段的方法,但一般采用如 图.的交叠分段方法,使得帧与帧之间平滑过渡,保持连续性。前一帧与后一帧的交叠 部分称为帧移。帧移与帧长的比值一般为/。分帧是用一定的窗函数?乘以刀, 从而形成加窗语音信号墨,玎邓刀宰,。理想窗函数的频率响应要求主瓣无限狭窄并且没 有旁瓣即无频谱泄露,但在实际应用中是难以实现的。由于汉明窗的旁瓣衰减较大, 具有更平滑的低通特性,能够在较高程度上反映短时信号的频率特性,所以在语音信号 数字处理中,汉明窗是最常用的一种窗函数,本文对语音信号的处理也采用汉明窗。汉 明窗的表达式如下: 五书以虹翮八肛錾裂。’ 其中,?为帧长。 采样周期/。、频率分辨率矽和窗口长度?之间存在如下关系: 赢 ::.式可知,采样周期一定,鲈随着窗宽度?的减小而增加。虽然频率分辨 率提高,但时间分辨率降低。在对窗口长度的选择上,基因周期显得更加重要。通常认 为在一个语音帧内应包含~个基因周期。但不同人的基因周期变化很大,所以?的选江苏大学硕士研究生毕业论文 择比较困难,折衷的选择是?取点为宜。这样,语音信号就被分割成一帧一帧 加过窗函数的短时信号,再把每一个短时语音帧看成平稳的随机信号。在进行处理时, 按帧从数据区中取出数据,处理完后再取下一帧,最后得到由每一帧参数组成的语音特 征参数的时间序列。 语音信号端点检测 在语音信号的处理中,端点检测是区分语音段中有声部分和静音部分的重要技术, 它从包含语音的一段信号中准确地确定语音的起始点和终止点。 这样,便于从语音段中 剔除静音段,更加有效地对语音的有声部分进行处理。待分析的语音信号经过端点检测 后,不仅能够减少语音情感特征的采集量,节约处理时间,还能排除无声段或噪声段的 干扰,提高语音情感识别系统的性能。 由于语音信号是时变非平稳信号,为了能将其视为短时平稳信号进行处理,需要对 其进行分帧,分帧后可将每一帧都看作平稳信号,并且可以方便地进行端点检测。本文 采用了基于短时能量和短时过零率的双门限端点检测法来实现端点检测算法。在此算法 中,首先为短时能量和过零率分别确定两个门限,一个是最小门限值,其数值比较小, 对信号的变化比较敏感。另一个是最大门限值,数值比较大,信号必须达到一定的强度, 该门限才可能被超过。低门限超过未必就是语音的开始,有可能是由时间很短的噪声引 起的,而高门限基本确信是由于语言信号引起的。 整个语音信号的端点检测可以分为四个阶段:静音段、过渡段、语音段、结束。在 静音段,如果能量或过零率超越了低门限,就开始标记起始点,进 入过渡段。在过渡段 中,由于参数的数值比较小,不能确定是否处于真正的语音段,因此,只要两个参数的 数值都回落到低门限以下,就可以认为当前状态恢复到静音状态。而如果在静音段中两 个参数中的任何一个超过了高门限,就可以确定进入语音段。因此,门限值的确定对语 音段的检测相当重要。本文首先计算出背景噪声能量的统计特性,定出能量门限,然后 利用能量门限来确定语音信号的起止点。 短时帧能量为一帧采样点值的加权平方和。用邑表示,计算公式如下: ?【加,一聊】?【以刀一所】 ” 其中,为离散语音信号时间序列,?为汉明窗函数,?为窗长。在这里,窗函 数?平方的物理含义是一个冲激响应为一所的滤波器。 ????????????????????????????~ 江苏大学硕士研究生毕业论文 语音信号的短时过门限率为乙,计算公式如下: ? 乙?《洲功一刀一咿瞰,,一一刀锄瞰砂.刀一印?一刀吣一功 其中,为计算得到的低门限值。本文根据录制的语音库,通过实验将值取为.。 是语音信号的符号函数,其取值如下: 娜?,矗器髦 其中,为语音信号。 .语音情感特征参数的提取 语音之所以能够表达情感,是因为其中包含能体现情感特征的参数。语音中情感的 变化通过特征参数的差异而体现。因此研究从语音信号中提取什么样的特征参数来反映 情感状态的差别,对于语音情感识别具有极其重要的意义‘。一般来说,语音信号中的 情感状态往往会通过语音韵律的变化表现出来,不使用原始的语音信号直接作为识别依 据,而是通过使用一定的表示方法对原始的语音信号进行新的刻画表示,这种新的表示 包含有语音信号的特定信息并能更好地反映语音的情感类别。比较理想的情感特征应具 有以下四个特点。 特征对情感具有明显的区分性 作为情感特征,不论说话人是否相同,同一特征应因情感的不同而表现出较大的差 异性,对于同类情感应具有较小的差异性。这样能够最大可能的区分情感,而不因说话 人的不同降低情感区分度。 特征有较强的鲁棒性 语音录制时往往会受到环境影响,例如传输通道、噪音等。作为情感特征应对这些 影响有较小的敏感度,尽量不受环境的影响,表现出好的稳定性。 特征表示为计算机可识别信息 语音的情感信息要能表示为计算机中的数据信息,通过数据来体现不同的情感信息, 只有表示为数据信息才能被计算机所识别。 提取特征的效率江苏大学硕士研究生毕业论文 特征的提取要消耗.,快速提取语音的情感特征能提高系统的性能。这样,在实 时性要求比较高的场合就可以发挥重要作用。 以上四点是选择情感特征的一个基本规则,能够满足这些条件的特征都应该被选作 情感特征。目前语音情感识别所采用的特征大多是基于声学特征,也有部分学者把语音 的高层信息作为情感特征。我们先将所有情感特征进行分类,然后分别进行阐述。 ..基于声学的语音情感特征 基音频率 语音激励一般分为浊音激励和清音激励。发清音时,声带处于松弛状态,不发生震 动,气流通过声门直接进入声道。无论是摩擦音还是阻塞音,声道都被阻碍形成湍流, 所以清音激励相当于一个随机白噪声。发浊音时,气流通过紧绷的声带,对声带进行冲 击而产生震动,这个震动频率称为基音频率,简称为基频。基频是情感识别中一个重要 的特征参数。目前已经有很多文献对其进行了分析研究。但基频需要在较长的时间尺度 下才能反映出其蕴含的信息,所以通常用基频统计特征来作为情感特征,如均值、最大 值、 标准 excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载 差等【引。有时基频也会因说话人的不同而不同,因此在非特定人语音情感识别 系统中也被看作为重要的情感特征参数。 通常情况下,基音频率是先通过求基音周期然后求其倒数得到的。本文采用了自相 关基因检测法来估计基音频率。下面是对每一帧进行基音周期估计的计算步骤。 .用的低通滤波器对一帧语音信号进行滤波,并去掉开头个输出 值不用置,得到’,; . .分别求’,的前部个采样点和后部个采样点的最大幅度,并取其 中较 小的一个,乘以因子.作为门限电平; .用式进行中心削波和三电平削波; 聆 互匀 , 五 . 刀 为 伽 ’力 加勇加其幻他他 执啵仉 ,。二....?、,..、.。 .用如下公式.求和,’刀的互相关值: 七?’?尼,,,,,?, . 江苏大学硕士研究生毕业论文 其中,的取值范围相应于基音频率范围一,相应于短时能量; .求出?中的最大值‰; .如果‰.,则认为本帧为清音,令基音周期值,否则基音周 期为使七取最大值时的位置的值,计算公式如下: 七.? 其中,为基音周期估值,为力和’门的互相关值。 .短时能量及短时振幅 语音信号能量因人的情感不同而表现出较大差异,并且由于说话人的不同,语音信 号能量也会有很大的不同。相关研究表明,人在高兴或惊奇时,能量值明显比悲伤或沮 丧时高的多,喜欢大声说话的人比那些说话较为平缓的人的语音信号能量甚至大一倍, 故可采用短时分析技术,获得短时能量作为情感的一个重要特征参数,用于非特定人语 音情感识别系统中。计算语音信号能量的方法如下: 语音波形时域信号为,,加窗分帧处理后得到的第帧语音信号为矗聊,则吒聊 满足下式: 矗所聊???一 。? :三嬲一’ 卜,骺 其中,,丁,丁,?,?为帧长,丁为帧移长度。 设第刀帧语音信号%坍的短时能量用表示,计算公式如下: ?而聊 语音信号的振幅特征与各种情感信息具有较强的相关性,在我们 的实际生活中体现 的尤为明显,不同的说话人说同一句话时,声音有高有低。另外,当人们愤怒或者惊奇 的时候,发出的音量往往变大,而当人们沮丧或悲伤的时候,往往讲话的声音很低。因 此,可把振幅构造特性作为非特定人语音情感识别系统的重要特征参数加以分析研究。 通过计算每帧语音信号的短时能量来衡量振幅构造,信号以的短时平均幅度函数定义 如下: 江苏大学硕士研究生毕业论文 ’ ? 鸭?矗朋 本文中求取语音信号每帧的短时能量,分析它们随时问的变化情况,主要针对振幅 能量的平均值、极值、动态范围、标准差、中位数等特征进行比较。 共振峰 共振峰是反映声道特性的一个重要参数,它包括其位置和频带宽度。当说话人受外 界环境影响,处于不同的情感状态时,由于每个人的心理状况不 一样,每个人的神经所 处的紧张程度也不同,从而使得声道在发同一个声音的时候发生形变,表现出差异性, 改变了声道的固有频率,这必然使共振峰的峰值发生改变。因此,把共振峰作为情感的 一个重要参数是合理的。 许多学者用线性预测方法提取每帧语音信号的共振峰参数。在文献【】中,作者提出 共振峰的第一共振峰、第二共振峰、第三共振峰的峰值会随着情感状态的变化而变化, 且不同的人也会展现出差异性。因此,本文选取第一共振峰频率、第二共振峰频 率兄、第三共振峰频率的平均值、最大值、动态变化范围、平均变化率、均 方差、共振峰频率的/分位点、/分位点以及共振峰变化的/分位点、/分位点等 统计特征作为非特定人语音情感识别用的特征参数。这罩的共振峰频率的平均变化率是 指各帧语音信号的共振峰频率差分的绝对值的平均值。共振峰频率的/分位点就是共振 峰频率动态范围的/点的值,定义如下: 一/共振峰频率的/分位点就是共振峰频率的平均值与最小值的 平均值,定义如下: /一/ ? 特征 人耳具有一些特殊的功能,这些功能使得人耳在嘈杂的环境中,以及各种变异情况 下仍能正常地分辨出各种声音,其中耳蜗起了很关键的作用。研究者根据心理学实验得 到了类似于耳蜗作用的一组滤波器组,就是频率滤波器组,频率与实际频率的 具体关系为: / ? 利用这一听觉原理和倒谱的解相关特性,等【提出了梅尔频率倒谱系数 。 计算的具体步骤如下: 江苏大学硕士研究生毕业论文 .语音信号经过加窗分析后变为短时信号,用将这些时域信号,转换 为频域信号沏,并由此计算它的短时能量谱。 .将尸?由在频域轴上的频谱转化为坐标上的以蚴,其中表示坐标 频率,频率考虑了人耳的听觉特性,转换公式如下: ‰.. .在频域内将三角带通滤波器加于坐标得到滤波器组删。然后计 算坐标轴上的能量谱均经过此滤波器的输出: 后玩】,,?, ? 其中,表示第滤波器,表示滤波器个数。 .如果秒%表示第个滤波器的输出能量,则频率倒谱%,在刻 度谱上可以采用修改的离散余弦反变换求得。 ‰?喜眠竿删’?, 其中,为参数的阶数。 有研究表明,尽管可以在干净语音情况下获得较高的识别率,但 当语音信号 的信噪比较低时,单纯用特征作为静态特征,其识别性能往往不 能令人满意。而 瞬态参数如参数则具有明显的环境鲁棒性,所以本文提取了的一 阶 参数和二阶参数。 假设,,?,?为计算得到的一句情感语音的系数,那么它的一阶 参数和二阶参数计算如下: ,,?,一 一 一,一,?,?一?一 ?一,?一?,?,???一,,?,一 目前,在语音情感识别领域,哪些情感特征可以真正区分情感类别还没有达成共识。 因此,许多研究人员总是提取尽可能多的特征,从中选取能与模型匹配最好的特征作为 语音情感特征。在非特定人语音情感识别系统中,一般把能够区分不同人的情感的语音 特征作为重要的情感特征参数。根据模式识别的相关知识,在各类别总体的先验概率分 布和类条件概率均未知的情况下,模式识别问题需要进行有监督的学习,每一个样本都 江苏大学硕士研究生毕业论文 ’要分配一个类别标识。在现实世界里,样本的类别相关特征是一种未知的先验知识,因 此,模式识别往往想用较多的特征较好地表征类别。但是,在众多候选特征中往往包含 着大量对类别区分问题相关性差,甚至不相关且冗余的特征。减少不相关和冗余特征的 数量能够有效地减少学习算法的运算时间,甚至能够提升识别性能。 ..语音高层信息特征 除了常用的声学特征外,也有研究人员从语言学的角度考虑语音 信号中的情感分析, 开始考虑句子的语义成分,利用语句的语义和语法提供说话人的情感线索‘。等【 研究发现,当对现实情感的语音进行情感识别时,因人们之间的生理和心理差异性,单 独使用韵律特征是不充分的,必须使用其它的知识信息,如说话人方式,情感用词等作 为补充。在对非特定人的情感进行识别时,说话方式、口音、常用情感词汇等,作为情 感识别的特征特别有效。另外,发现人们共同的常用情感词汇、挖掘出语音中的语义信 息也能够提高系统的识别性能。 .语音情感识别方法 对语音信号进行处理、提取其特征之后,必须建立有效的情感模型才能对语音情感 进行识别,建立模型也是语音情感识别的核心问题。由模式识别的知识,我们可以获得 多种有效的建模方法,在特定人语音情感识别系统中,常用的方法有:、、、 神经网络、等,各个模型因应用的场合不同而各有优劣。在非特定人语音情感 识别系统中,识别模型的构建有两种方法:其一,多模型融合。选 取多个单个模型,互 相弥补不足,通过对各个模型确立权重的方法判决情感的识别结果,以提高对非特定人 语音情感的识别率;其二,模型自适应。通过自适应方法对原模型的参数进行自适应的 调整,利用较少的说话人样本使模型性能大幅度提高。本文主要是针对非特定人语音情 感识别进行研究,故重点讲解非特定人语音情感识别方法。 ..常用语音情感识别方法 支持向量机 是在机器学习中使用最优化方法的先驱,他最早提出了最大间隔的思想, 通过分类面将空间中不同类别的样本分开,。后来,贝尔实验室研究人员等人 江苏大学硕士研究生毕业论文 在比较严密的数学理论基础上,发展了一系列与核函数相关联的各种支持向量机 ,。它们是全新的机器学习算法,这种机器学习算法基于结构风险最 小化原则,能较好的解决小样本分类问题【。由于这种算法主要思想是通过一个线性 变换,将数据映射到高维空间,以增加数据的可分性,使得原本在 二维空间内线性不可 分的样本在高纬空间内线性可分,并建立在坚实的数学理论基础上,故能够很好的克服 维数灾难和过拟合等传统算法所不可避免的问题。近年来,作为一种有效的分类工 具,因其稳定的分类性能和良好的推广能力,被广泛应用与语音情感识别研究】。 本文的模型采用,故将进行详细讲解。 对于任意两类分类问题,设线性可分样本集是由,,...朋组成的,中样本属 于其中一类用只标记,属于另一类则用乃标记。在一个维空间中,线性判别 函数如下: 其中,表示超平面的法向量,是输入向量。存在? ?,满足如下不等式: 、 陋, 饿慧三二: 薯,乃一 由公式口得: 只?? 对于任意的,,?,?,参数,唯一确定的用来分类的超平面方程如下:两类样本间的间隔用表示: 肛赢 求最大间隔问题可转化为如下的最优问题: 卜?如 .只’?‘?一参,,,?,? 用拉格朗日乘子法对上.式最优问题进行求解,上最优问题可转 化为 其对偶问题,此问题仅与拉格朗日乘子 相关。 江苏大学硕士研究生毕业论文, 、 “寺??咒乃而,一?% 口‘, 乏 ?江’,?’? 和。 拉格朗日乘子和每个训练样本是一一对应的,如果拉格朗日乘子 确定,那么的计 算公式如下: ? ?, 的计算公式如下: 儿一? ? 但是,不是所有的数据集都是线性可分的,如上的超平面不能把 线性不可分的两类 样本完全分开。为了解决此线性不可分问题,和提出了带惩罚因子和松 弛变量的支持向量机【】。 ,。;三“善毒 . .少,’.‘?一专,?, ,?, 专? 新的最优问题? 的对偶问题为: 卜攀跏懈咿善哆 ,?, ? ?; ,?, ?? 中核函数的选择影响分类器的性能,如何根据语音样本数据选择和构造合适的 核函数及确定核函数的参数等问题缺乏相应的理论指导,所以在多数文献中采用实验的 方法进行确定。另外,虽然多类的训练算法已被提出,但用于多分类问题的有效算 法及多类的优化设计等仍需进一步研究。 隐马尔可夫模型是马尔可夫链的一种,是基于转移概率和传输概率的随机 模型。它的状态不能直接观察到,每个观测向量都是通过某些概率密度分布表现为各江苏大学硕士研究生毕业论文 种状态,每一个观测向量是由一个具有响应概率密度分布的状态序列产生。所以,隐 马尔可夫模型是一个双重随机过程。它既能用短时模型即状态解决声学特性相对稳 定段的描述,又能用状态转移规律刻画稳定段之问的时变过程。因此,已经成为基 于时序特征的语音情感识别中常用的模型。当采用对语音进行情感识别时,不是单 独利用语音的时序特征,而是把情感特征和一个状态转移模型联系起来,它充分体现了语 音时序特征的动态变化,不同的情感可以由不同的模型来表现。作为统计概率 模型已经被证明是一种很好的语音情感识别模型【】,它适合处理连续信号。基于 的语音情感识别扩展性好,增加新样本时不需要对所有的样本进行训练,只需训练 新样本;缺点是模型结构参数的选择仍与待处理的语音数据有关,需由实验确定,并且训 练时的计算量较大。 神经网络 神经网络可视为由大量相连的简单处理器神经元构成的大规模并行计算系统,具有 学习复杂的非线性输入输出关系的能力,可以利用训练过程来适应数据,对于模型和规则 的依赖性较低。对于语音情感识别问题,根据使用的特征和情感分类的不同,可以使用不 同的网络拓扑结构。对神经网络系统进行了深入研究,整个神经网络个子 网构成,每个子网处理一种特定的情感,这种网络具有良好的可扩展性,增加情感类别时 不需要重新训练整个网络。测试发现,负面的情感,如愤怒和悲伤容易识别,但正面的情 感,比如高兴,不易识别。神经网络的自学习功能非常强大,由于语音样本特征向量与情 感的许多规律进行显性的描述是困难的,而神经网络则可以通过反复学习的过程获得对这 些规律的隐性表达,其在语音情感识别中具有独特的优势。为充分学习这些隐性规则,神 经网络方法一般都采取了含有大量神经元的隐含中间层,从而导致复杂度和计算量较高。 高斯混合模型 高斯混合模型本质上是一种多维概率密度函数,可以用来表示语音特征矢 量的概率密度函数。它可以看作一种状态数为的连续分布。通过对情感特征矢量聚 类,把每一类看作是一个多维高斯分布函数,然后求出每一类的均值、协方差矩阵和出现 的概率,将此作为每种情感的训练模板。识别时将测试矢量输入每种情感模板,最大后验 概率即为识别结果。文献【】在其情感识别实验中使用识别七种情感状态,实验结果 表明,使用的识别率高于采用短时特征矢量的分类器的识别率。它的优点是可 以平滑地逼近任意形状的概率密度函数,每个密度分布可以表示出基本声学类,并且模型 江苏大学硕士研究生毕业论文 稳定、参数容易处理。但的阶数和初值较难确定,特别是阶数难以从理论上推导出 来,因此,通常是根据不同的语音样本由实验确定。 ..模型自适应方法 自适应算法 最大后验概率算法是自适应算法中比较经典的算法之一,它有很 好的渐进性, 可以充分利用语音情感的细节信息。它通过理论给出了结合先验知识和自适应数 据的最优解。在模型的训练过程中结合了先验信息,避免了自适应数据估计的错误,当 自适应数据不断增加时,自适应效果稳步提高。估计过程如下: 假设观察值五,而,?,‘是符合均值未知,方差仃已知的高斯分布,似然函数矽 可以表示为: 川舻南州一丢喜孚】咧一丢喜孚】任, 其中,痧为样本均值,仃为样本方差。对上式改写可得: ?叫一虿咿一‖眈专‖ 其中,一善西,即,恐,?,吒的样本均值。同时假设矽的共轭先验分布也是高 斯分布并且均值是‖,方差是,。经计算可以解得: ‰符 把公式?里的符号进行变量替换,可以得到对于高斯分布均值的重估的一 般公式: 三。:?以? ’飞 式中,以与心分别表示自适应前后的均值向量,仇表示对应的第 个高斯分布的训练样 本总数。表示用最大似然估算出的对应该高斯的样本均值向量。吒是模型先验分布的 江苏大学硕士研究生毕业论文 一个重要参数,是重估中十分重要的因素,它控制着自适应对先验信息以的依赖 程度,对自适应效果有很大的影响。对于“的估计,可以预先确定,也可以在训练过程 中由数据估计。求靠的一种方法是利用自适应数据的均值历和初始模型的高斯均值肌距 离的倒数来估算气,从式?还可以看出对于自适应数据比较少的情况,相应变大。 这说明了自适应方法随着自适应数据数量的增加,重估逐渐逼近重估, 当训练数据趋于无穷时,用法所得到的模型与充分语料所得到的模型相等价。公式 可转换为如下形式: ’ ?‘一‖。???号一 %?% 其中,%主??端,是表示对应的训练数据?,以,?。,是一个高斯分 布,?是高斯分布的协方差矩阵,味是混合系数。从?式中可以看出自适应调整后 的均值向量实际是初始值与相应各训练数据的线性加权之和。虽然方法使模型获得 不错的性能,但是其收敛速度比较慢,并且只能对有观测数据的模型自适应,无法处理 没有观测数据
本文档为【基于多核融合和模型参数自适应的非特定人语音情感识别的研究(可编辑)】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_348501
暂无简介~
格式:doc
大小:69KB
软件:Word
页数:0
分类:
上传时间:2018-02-18
浏览量:10