首页 具有基于场景切换分析器引导的失真可听度模型的动态阈值的减少失真的多带压缩器

具有基于场景切换分析器引导的失真可听度模型的动态阈值的减少失真的多带压缩器

举报
开通vip

具有基于场景切换分析器引导的失真可听度模型的动态阈值的减少失真的多带压缩器(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN112640301A(43)申请公布日2021.04.09(21)申请号201980057612.5(72)发明人马远星 (22)申请日2019.09.26(74)专利代理机构北京律盟知识产权代理有限(30)优先权数据责任公司1128719155298.32019.02.04EP代理人陈甜甜62/798,1492019.01.29US(51)Int.Cl.(66)本国优先权数据H03G9/00(2006.01)PCT/CN2018/108...

具有基于场景切换分析器引导的失真可听度模型的动态阈值的减少失真的多带压缩器
(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN112640301A(43)申请公布日2021.04.09(21)申请号201980057612.5(72)发明人马远星 (22)申请日2019.09.26(74)专利代理机构北京律盟知识产权代理有限(30)优先权数据责任公司1128719155298.32019.02.04EP代理人陈甜甜62/798,1492019.01.29US(51)Int.Cl.(66)本国优先权数据H03G9/00(2006.01)PCT/CN2018/1082872018.09.28CNH03G9/18(2006.01)(85)PCT国际申请进入国家阶段日2021.03.03(86)PCT国际申请的申请数据PCT/US2019/0531422019.09.26(87)PCT国际申请的公布数据WO2020/069120EN2020.04.02(71)申请人杜比实验室特许公司地址美国加利福尼亚州权利 要求 对教师党员的评价套管和固井爆破片与爆破装置仓库管理基本要求三甲医院都需要复审吗 书2页说明书8页附图6页(54)发明名称具有基于场景切换分析器引导的失真可听度模型的动态阈值的减少失真的多带压缩器(57)摘要本申请案涉及响应于输入音频信号而动态地调整压缩器的阈值的方法、系统及计算机程序产品。场景切换分析器接收具有多个频带分量的输入音频信号。所述场景切换分析器确定所述输入音频信号中是否已发生场景切换。处理所述输入音频信号的所述频带分量。响应于确定尚未发生场景切换,失真可听度系统将缓慢平滑应用到所述频带分量的压缩器阈值。响应于确定已发生场景切换,所述失真可听度系统将快速平滑应用到所述频带分量的所述压缩器阈值或不将平滑应用到所述频带分量的所述压缩器阈值。CN112640301ACN112640301A权 利 要 求 书1/2页1.一种响应于输入音频信号而动态地调整压缩器的阈值的方法,所述方法包括:由场景切换分析器接收具有多个频带分量的输入音频信号;由所述场景切换分析器确定所述输入音频信号中是否已发生场景切换,其中当所述输入音频信号从为宽带信号转变到为窄带信号或从为窄带信号转变到为宽带信号时,确定已发生场景切换;由所述场景切换分析器向失真可听度模型提供一或多个控制信号,以通过引导平滑器的攻击时间常数及/或释放时间常数的改变而将平滑引导到所述频带分量的压缩器阈值;及处理所述输入音频信号的所述频带分量,其包含:响应于确定尚未发生场景切换,所述控制信号指示使用大时间常数,由此将缓慢平滑应用到所述频带分量的压缩器阈值;及响应于确定已发生场景切换,所述一或多个控制信号指示使用小或零值时间常数,由此将快速平滑应用到所述频带分量的所述压缩器阈值或不将平滑应用到所述频带分量的所述压缩器阈值。2.根据权利要求1所述的方法,其中所述宽带信号对应于歌唱声或专业电影内容,且所述窄带信号对应于器乐声或低质量窄带用户生成内容UGC。3.根据权利要求1或2所述的方法,其中确定所述输入音频信号中是否已发生场景切换是基于输入音频信号的所有频带分量。4.根据权利要求3所述的方法,其中确定所述输入音频信号中是否已发生场景切换是基于信号功率谱质心的时变估计。5.根据权利要求4所述的方法,其中所述场景切换分析器至少通过执行包括以下各者的操作来计算所述信号功率谱质心的所述时变估计:通过使每一频带分量信号平滑来估计信号功率谱;及使用所述估计的信号功率谱确定所述信号功率谱的所述质心。6.根据权利要求5所述的方法,其中确定所述输入音频信号中是否已发生所述场景切换包括:使所述质心平滑;确定所述质心与所述平滑质心之间的差;及基于所述差是否满足阈值来确定是否已发生所述场景切换。7.根据权利要求3到6中任一权利要求所述的方法,其中确定所述输入音频信号中是否已发生场景切换是基于所述信号功率谱的截止带的估计。8.根据权利要求7所述的方法,其中所述场景切换分析器至少通过执行包括以下各者的操作来计算所述信号功率谱的所述截止带的所述估计:通过使每一频带分量信号平滑来估计信号功率谱;及使用所述估计的信号功率谱确定所述信号功率谱的所述截止带。9.根据权利要求8所述的方法,其中确定所述输入音频信号中是否已发生所述场景切换包括:使所述截止带平滑;确定所述截止带与所述平滑截止带之间的差;及2CN112640301A权 利 要 求 书2/2页基于所述差是否满足阈值来确定是否已发生所述场景切换。10.根据上述权利要求中任一权利要求所述的方法,其中用于引导所述攻击时间常数及/或所述释放时间常数的所述改变的一或多个控制信号的 关于工期滞后的函关于工程严重滞后的函关于工程进度滞后的回复函关于征求同志党风廉政意见的函关于征求廉洁自律情况的复函 数被映射到范围[0,1],且其中所述攻击时间常数及/或所述释放时间常数是通过乘以所述函数而改变。11.根据上述权利要求中任一权利要求所述的方法,其进一步包括:由所述压缩器对每一频带分量执行具有所述对应阈值的压缩操作以产生多个增益,每一增益对应于相应频带分量。12.一种场景切换分析器,其包括:一或多个计算装置;及计算机可读存储媒体,其存储指令,所述指令在由一或多个处理器执行时使所述一或多个处理器执行权利要求1到11中任一权利要求的操作。13.一种计算机可读存储媒体,其存储指令,所述指令在由一或多个计算装置执行时使所述一或多个计算装置执行权利要求1到11中任一权利要求的操作。3CN112640301A说 明 书1/8页具有基于场景切换分析器引导的失真可听度模型的动态阈值的减少失真的多带压缩器[0001]相关申请案的交叉引用[0002]本申请案要求2018年9月28日提交的第PCT/CN2018/108287号国际专利申请案、2019年1月29日提交的第62/798,149号美国临时专利申请案及2019年2月4日提交的第19155298.3号欧洲专利申请案的优先权益,所有这些专利申请案均以引用的方式全部并入本文中。技术领域[0003]本申请公开大体上涉及音频呈现,且特定来说,涉及呈现期间的失真减少。背景技术[0004]许多音频重放系统含有放大器及扬声器,其具有有限的输出能力。手机及平板计算机是两个极端的例子,它们的 设计 领导形象设计圆作业设计ao工艺污水处理厂设计附属工程施工组织设计清扫机器人结构设计 受到装置的 尺寸 手机海报尺寸公章尺寸朋友圈海报尺寸停车场尺寸印章尺寸 及功率要求的严格限制。在此类系统中,随着重放电平的增加,音频失真是很常见的,且这种失真的特性通常是频率相关的。因此,通常的做法是在重放之前将多带压缩应用到音频信号以减少失真并尝试在重放装置上最大化重放电平。为信号的每一频带指定失真阈值,且压缩器将独立增益应用到每一频带以确保每一频带中的信号电平不超过对应的失真阈值。这种压缩器的一个问题是,为了减少失真而应用的增益可能与内容相关。为了消除窄带信号的感知失真而设置的阈值通常大于宽带信号所需的阈值,这是因为宽带信号本身可显著地掩盖其诱发的一些失真,而窄带信号在掩盖其诱发的失真方面可能不太有效。为了解决这个问题,申请人提出了多带压缩器,所述压缩器被增强了失真可听度模型,所述模型给出了可听度测量,然后利用所述可听度测量来动态地修改压缩器的阈值,以在最小感知失真的情况下达到最大重放电平,如图1所说明。发明内容[0005]本申请案介绍一种场景切换分析器,以确定输入音频信号中是否已发生场景切换,从而引导失真可听度模型。此场景切换分析器保证了压缩阈值的快速改变只发生在场景切换的同一时刻,从而提供更自然的体验。通常,当一段内容包括窄带信号,而下一段包括宽带信号,或一段内容包括宽带信号,而下一段包括窄带信号时,会发生场景切换。例如,如果歌唱声在钢琴独奏之后进入,那么将其视为场景切换,因此压缩器阈值可能会随着失真可听度测量的改变而迅速改变。当一段内容包括窄带信号,而播放列表中的下一段内容包括宽带信号,或一段内容包括宽带信号,而播放列表中的下一段内容包括窄带信号时,也会发生场景切换。例如,低质量窄带用户生成内容(UGC)之后是专业宽带内容。[0006]因此,当在输入音频信号中没有场景切换时,应用动态压缩器阈值的缓慢平滑,使得它们缓慢地改变。这可通过使用用于平滑的单极平滑器的大攻击时间常数及/或释放时间常数来获得。当检测到场景切换时,通过使用平滑器的较小攻击时间常数及/或释放时间4CN112640301A说 明 书2/8页常数,应用快速平滑以允许压缩器阈值的快速改变。[0007]在一些实施 方案 气瓶 现场处置方案 .pdf气瓶 现场处置方案 .doc见习基地管理方案.doc关于群访事件的化解方案建筑工地扬尘治理专项方案下载 中,一种场景切换分析器接收具有多个频带分量的输入音频信号。所述场景切换分析器确定所述输入音频信号中是否已发生场景切换。处理所述输入音频信号的所述频带分量。响应于确定尚未发生场景切换,失真可听度模型将缓慢平滑应用到所述频带分量的压缩器阈值。响应于确定已发生场景切换,所述失真可听度模型将快速平滑应用到所述频带分量的所述压缩器阈值或不将平滑应用到所述频带分量的所述压缩器阈值。[0008]在一些实施方案中,所述场景切换包含宽带信号与窄带信号之间的切换,或窄带信号与宽带信号之间的切换。所述宽带信号对应于歌唱声或专业电影内容,而所述窄带信号对应于器乐声,例如钢琴声或低质量窄带UGC内容。[0009]在一些实施方案中,确定所述输入音频信号中是否已发生场景切换是基于输入音频信号的所有频带分量。例如,确定所述输入音频信号中是否已发生场景切换是基于通过使每一频带分量信号平滑而进行的信号功率谱的质心的时变估计或信号功率谱的截止带的估计。具体地说,所述场景切换分析器通过执行包含以下各者的操作来计算所述信号功率谱质心的所述时变估计:通过使每一频带分量信号平滑来估计信号功率谱,及使用所述估计的信号功率谱确定所述信号功率谱的所述质心。确定所述输入音频信号中是否已发生所述场景切换可包含以下操作:使所述质心平滑;确定所述质心与所述平滑质心之间的差;及基于所述差是否满足阈值来确定是否已发生所述场景切换。另外,所述场景切换分析器至少通过执行包含以下各者的操作来计算所述信号功率谱的所述截止带的所述估计:通过使每一频带分量信号平滑来估计信号功率谱,及使用所述估计的信号功率谱确定所述信号功率谱的所述截止带。确定所述输入音频信号中是否已发生所述场景切换可包含以下操作:使所述截止带平滑;确定所述截止带与所述平滑截止带之间的差;及基于所述差是否满足阈值来确定是否已发生所述场景切换。[0010]在一些实施方案中,所述场景切换分析器向所述失真可听度模型提供一或多个控制信号,以在确定是否已发生所述场景切换之后将所述平滑引导到所述输入音频信号的所述频带分量的压缩器阈值。另外,在一些实施方案中,一或多个控制信号引导包含攻击时间常数及/或释放时间常数的时间常数的改变。在一些实施方案中,一或多个控制信号的函数被映射到范围[0,1],所述函数可为阶跃函数或S型函数。[0011]在一些实施方案中,一种用于确定输入音频信号中是否已发生场景切换的场景切换分析器包含一或多个计算装置,所述计算装置可操作以致使执行一些或所有上述操作。[0012]在一些实施方案中,一种计算机可读媒体存储指令,所述指令可由一或多个处理器执行以致使执行一些或所有上述操作。附图说明[0013]所包含的图用于说明目的,且仅用于提供所公开的发明方法、系统及计算机可读媒体的可能的及操作的实例。这些图不以任何方式限制本领域技术人员在不脱离所公开的实施方案的精神及范围的情况下可在形式及细节上作出的任何改变。[0014]图1展示先前压缩器的示意图,所述压缩器并入有失真可听度模型(DAM)以用于响应于输入音频信号而动态地调整压缩器的阈值。5CN112640301A说 明 书3/8页[0015]图2展示根据一些实施方案的压缩器100的示意图,压缩器100并入有场景切换分析器(SSA)以引导失真可听度模型(DAM)响应于输入音频信号而动态地调整压缩器的阈值。[0016]图3展示根据一些实施方案执行的由本文公开的压缩器100进行的音频信号处理的方法200的流程图。[0017]图4展示根据一些实施方案执行的基于确定输入音频信号中是否已发生场景切换来响应于输入音频信号而动态地调整压缩器的阈值的方法300的实例。[0018]图5展示根据一些实施方案执行的基于确定输入音频信号中是否已发生场景切换来响应于输入音频信号而动态地调整压缩器的阈值的方法400的另一实例。[0019]图6A及6B展示根据一些实施方案的一或多个控制信号的函数的两个实例,即分别为阶跃函数或S型函数。具体实施方式[0020]如上文所提及,现在使用被增强了失真可听度模型的多带压缩器来给出可听度测量,然后利用所述可听度测量来动态地修改压缩器的阈值以在最小感知失真的情况下获得最大重放电平。根据多个频带分量确定多个动态(时变)阈值,其中每一时变阈值对应于相应的频带分量。然后,压缩器对每一频带分量执行压缩操作,其中压缩具有对应的时变阈值以针对每一频带分量产生增益。然而,这种失真可听度模型增强的压缩器的问题是,当应用于尺寸受到严格限制的移动装置时,窄带信号的感知失真难以消除,因此为窄带信号设置的阈值通常远低于宽带信号所需的阈值。那意味着失真可听度测量的微小改变将导致大的阈值改变,从而导致相当大的输出音量改变。当这种快速而显著的改变发生在意想不到的时刻时,会对聆听体验产生负面影响。[0021]为了解决此问题,本申请案公开了并入有场景切换分析器的技术,所述场景切换分析器经配置以引导失真可听度模型来使动态(时变)阈值平滑,所述动态(时变)阈值可由多带压缩器应用。如下公开实施所述技术以用于响应于输入音频信号而动态地调整压缩器的阈值的方法、系统及计算机可读媒体的一些实例。[0022]图2描绘根据一些实施方案的多带压缩器100,多带压缩器100并入有场景切换分析器(SSA)以引导失真可听度模型(DAM)响应于输入音频信号而动态地调整压缩器的阈值。在图2中,滤波器组104形式的滤波模块接收输入信号x[n]。滤波器组104经配置以对输入信号x[n]进行滤波以将输入信号x[n]分离为数个频带分量x1[n]到xB[n]。在一些实施方案中,滤波器组104经配置为实施为B个带通滤波器的多带滤波器,其中每一带通滤波器对应于相应的频带分量。例如,每一频带b的输出可经计算为输入信号x[n]与带通滤波器响应hb[n]的卷积,如等式(1)中所表示:[0023]xb[n]=hb[n]*x[n],b=1…B                       (1)[0024]在图2中,场景切换分析器108接收从滤波器组104输出的频带分量x1[n]到xB[n];且基于其分析,场景切换分析器108产生一或多个控制信号Ck[n]。在一些实施方案中,Ck[n]潜在地经计算为跨频带b=1…B的所有频带信号xb[n]的函数,如等式(2)中所表示:[0025]Ck[n]=SSA({xi[n]|i=1...B})                         (2)[0026]接下来,将一或多个控制信号Ck[n]馈入到失真可听度模型112中以引导其基于所有频带分量x1[n]到xB[n]及跨频带b=1…B的固定阈值Lb来计算每一时变阈值Db[n],如等6CN112640301A说 明 书4/8页式(3)中所表示:[0027]Db[n]=DAM({xi[n],Li,Ck[n]|i=1...B})                  (3)[0028]其中,在一些实施方案中,场景切换分析器108可仅产生一个控制信号来引导计算所有频带分量x1[n]到xB[n]的所有时变阈值Db[n];在一些其它实施方案中,场景切换分析器108可产生多个控制信号,而不是仅仅一个控制信号,以引导计算所有频带分量x1[n]到xB[n]的所有时变阈值Db[n],例如,控制信号的数量对应于频带分量的数量。接下来,将每一频带分量与限制阈值Db[n]一起传递到压缩函数116中,以产生时变增益gb[n],如等式(4)中所表示:[0029]gb[n]=CF(xb[n],Db[n])                         (4)[0030]最后,通过将所有频带分量x1[n]到xB[n]的延迟版本求和并与它们对应的增益g1[n]到gB[n]相乘来计算经处理的输出信号y[n]。在图2中,多个单元120经配置以将增益与延迟频带分量相乘以产生经处理的频带分量y1[n]到yB[n],其在求和单元124处求和以产生输出信号y[n]。例如,延迟d可经设计以考虑与增益的计算相关联的任何处理延迟。等式(5)展示经处理的信号y[n]的生成的表示:[0031][0032]图3展示根据一些实施方案执行的由本文公开的压缩器100进行的音频信号处理的方法200的流程图。图3是用图2的实例来描述。在图3的204处,如上文所阐释,接收频带分量x1[n]到xB[n]作为到SSA 108的输入。在208处,SSA 108基于所有频带分量x1[n]到xB[n]产生一或多个控制信号Ck[n]。在212处,DAM 112根据控制信号Ck[n]基于所有频带分量x1[n]到xB[n]及跨频带的固定阈值来计算时变阈值Db[n]。在216处,每一压缩函数116经配置以使用对应的时变阈值Db[n]对对应的频带分量x1[n]到xB[n]执行压缩操作,以产生增益g1[n]到gB[n]。在220处,例如,使用乘法器单元120,将每一增益gb[n]应用到每一对应频带分量xb[n]的延迟版本,以产生经处理的频带分量y1[n]到yB[n]。在224处,将经处理的频带分量y1[n]到yB[n]在求和单元124处求和以产生输出信号y[n]。[0033]因此,SSA不单由DAM决定,还将采取频带分量x1[n]到xB[n],并基于其分析而给出一或多个控制信号Ck[n]来控制DAM,以将平滑引导到Db[n]。例如,Ck[n]引导时间常数的改变,它可在场景切换期间给出较小时间常数,以允许快速改变,并在没有场景切换时给出较大时间常数,以使波动平滑,这是因为先前压缩器施加的Db[n]的典型快速攻击/缓慢释放单极平滑器的攻击及释放时间常数是固定的。[0034]图4展示根据一些实施方案执行的基于确定输入音频信号中是否已发生场景切换来响应于输入音频信号而动态地调整压缩器的阈值的方法300的实例。优选地,已发现,信号功率谱的质心可为场景切换情况的良好指标,尤其是当歌唱声在钢琴独奏之后进入时,或反之亦然。因此,在此示范性实施例中,场景切换分析器108通过计算信号功率谱质心的时变估计而操作。在304处,可通过用快速攻击/缓慢释放单极平滑器使每一频带信号(即每一频带分量信号xb[n])平滑来估计信号功率谱sb[n],如等式(6)中所表示:[0035]7CN112640301A说 明 书5/8页[0036]其中αA是攻击时间常数,且αR是快速攻击/缓慢释放单极平滑器的释放时间常数。然后,用dB表示此信号功率谱sb[n],在等式(7)中:[0037]Sb[n]=10log10(sb[n])                            (7)[0038]接下来,在308处,由估计的信号功率谱确定信号功率谱的质心C[n],如等式(8)中所表示:[0039][0040]其中fb是频带的中心频率,且优选地,选择固定偏移量130dB,使得通常大于‑130dB的所有潜在可听信号将被计数到信号功率谱中。然后,在312处,也将用快速攻击/缓慢释放单极平滑器使信号功率谱的质心平滑,以获得平滑版本的质心Cs[n],如等式(9)中所表示:[0041][0042]接下来,在316处,确定质心C[n]与平滑质心Cs[n]之间的差,然后与阈值进行比较,优选地,选择500Hz的阈值,其有效地指示场景切换的发生,以产生一或多个控制信号Ck[n],其可被映射到范围[0,1],如等式(10)中所表示:[0043]Ck[n]=f(C[n]‑Cs[n])                           (10)[0044]在320处,Ck[n]引导例如攻击时间常数αA的时间常数的改变,如等式(11)中所表示:[0045]αA=Ck[n]αAfast+(1‑Ck[n])αAslow                     (11)[0046]其中可将αAfast及αAslow设置为多个不同的值,例如,可将其设置为每一频带的稍微不同的值或相同的值;其中,优选地,将αAfast设置为αAslow的一半或更小,以在急剧的场景切换期间产生潜在更自然的聆听体验。[0047]接下来,在324处,应用时间常数(例如,等式(11)中的攻击时间常数αA)来将平滑引导到Db[n],如分别在等式(12)及(13)中所表示:[0048][0049][0050]其中db[n]是在DAM中生成的非平滑的每带限制阈值。在一些实施方案中,等式(12)说明对Db[n]的常规快速攻击/缓慢释放平滑;另外,如果需要最快速的改变,那么甚至可将αA及αAfast设置为零;在这种情况下,当在db[n]的攻击期间检测到场景切换时,引导DAM不应用平滑,如等式(13)中所表示。[0051]除了或代替利用图4所表示的质心,还可利用输入信号频谱的其它特性来辅助场景切换的检测。图5展示根据一些实施方案执行的基于确定输入音频信号中是否已发生场景切换来响应于输入音频信号而动态地调整压缩器的阈值的方法400的另一实例。在此示范性实施例中,信号功率谱的截止带可为场景切换情况的替代指标,优选地,截止带可为引8CN112640301A说 明 书6/8页入以不同带宽为特征的乐器的良好指标。在404处,可通过用快速攻击/缓慢释放单极平滑器使每一频带信号平滑来估计信号功率谱,然后用dB表示,如等式(6)中类似地表示。接下来,在408处,由估计的信号功率谱确定信号功率谱的截止带bcutoff[n],如等式(14)中所表示:[0052][0053]然后,在412处,也将用快速攻击/缓慢释放单极平滑器使信号功率谱的截止带平滑以获得平滑版本的截止带bcutoff[n],如等式(9)中类似地表示。接下来,在416处,确定截止带与平滑截止带之间的差,然后与阈值进行比较以产生一或多个控制信号Ck[n],如等式(10)中类似地表示。在420处,Ck[n]引导时间常数的改变,如等式(11)中类似地表示。接下来,在424处,可应用时间常数来将平滑引导到Db[n],如等式(12)及(13)中类似地表示。[0054]图6A及6B展示根据一些实施方案的一或多个控制信号Ck[n]的函数的两个实例,即分别是阶跃函数及S型函数。通常,控制信号Ck[n]的函数f(·)可被映射到范围[0,1]。在如图6A所说明的一个实施例中,映射函数f(·)将是非常简单的实例,即阶跃函数,如等式(15)中所表示:[0055][0056]其中xTh是阈值。另外,在如图6B所说明的另一优选实施例中,映射函数f(·)将是如等式(16)中所表示的S型函数:[0057][0058]其中xTh是阈值,且a是比例因子。图6B进一步展示S型函数的三个特定实施例,其中比例因子分别设置为1、2及10。使用S型函数可潜在地有助于跨具有不同字长的浮点及定点平台生成更一致的音频输出。[0059]代替引导攻击时间常数,一种替代方法是,通过遵循上述从304/404到320/420的生成步骤,可产生一或多个控制信号Ck[n]来引导其它参数,例如释放时间常数αR等;其中,在从304/404到320/420的步骤中使用的一些参数可改变,例如通过改变312/412处的信号功率谱Sb[n]的所用时间常数来改变平滑方案,或改变316/416处的映射函数等。[0060]本文描述的场景切换分析器的技术可由一或多个计算装置实施。例如,专用计算装置的控制器可硬接线以执行所公开的操作或致使执行所公开的操作,且可包含数字电子电路,例如一或多个专用集成电路(ASIC)或现场可编程门阵列(FPGA),经持续编程以执行操作或致使执行操作。在一些实施方案中,定制硬接线逻辑、ASIC及/或FPGA与定制编程相结合以实现这些技术。[0061]在一些其它实施方案中,通用计算装置可包含并入有中央处理单元(CPU)的控制器,所述中央处理单元经编程以使得根据固件、存储器、其它存储装置或其组合中的程序指令来执行所公开的操作中的一或多个。[0062]本文中使用的术语“计算机可读存储媒体”是指存储指令及/或数据的任何媒体,这些指令及/或数据使计算机或机器类型以特定方式操作。本文所描述的模型、分析器及操作中的任何一者可经实施为或导致由使用合适的计算机语言的控制器的处理器执行的软9CN112640301A说 明 书7/8页件代码来实施。软件代码可作为一系列指令存储在计算机可读媒体上以供存储。合适的计算机可读存储媒体的实例包含随机存取存储器(RAM)、只读存储器(ROM)、磁性媒体、光学媒体、固态驱动器、快闪存储器及任何其它存储器芯片或盒带。计算机可读存储媒体可为这种存储装置的任意组合。任何此类计算机可读存储媒体可驻留在单个计算装置或整个计算机系统上或其内,且可为系统或网络内的其它计算机可读存储媒体之一。[0063]虽然本申请案的主题已参照其实施方案被具体地展示并描述,但本领域技术人员将理解,在不脱离本发明的精神或范围的情况下,可对所公开的实施方式的形式及细节进行改变。在附图中说明其中一些实施方案的实例,并阐述特定细节以提供对其的透彻理解。应注意,可在没有这些特定细节的情况下实践实施方案。另外,为了提高清晰度,可能没有详细描述众所周知的特征。最后,尽管本文参考一些实施方案讨论了优点,但应理解,范围不应受到这些优点的限制。相反,应参考所附权利要求来确定范围。[0064]可从以下列举的实例实施例(EEE)来理解本发明的各个方面:[0065]EEE1.一种响应于输入音频信号而动态地调整压缩器的阈值的方法,所述方法包括:[0066]由场景切换分析器接收具有多个频带分量的输入音频信号;[0067]由场景切换分析器确定所述输入音频信号中是否已发生场景切换;[0068]处理所述输入音频信号的所述频带分量,其包含:[0069]响应于确定尚未发生场景切换,将缓慢平滑应用到所述频带分量的压缩器阈值;及[0070]响应于确定已发生场景切换,将快速平滑应用到所述频带分量的所述压缩器阈值或不将平滑应用到所述频带分量的所述压缩器阈值。[0071]EEE2.根据实例实施例1所述的方法,其中所述场景切换包含宽带信号与窄带信号之间的切换,或窄带信号与宽带信号之间的切换。[0072]EEE3.根据实例实施例2所述的方法,其中所述宽带信号对应于歌唱声,且所述窄带信号对应于器乐声。[0073]EEE4.根据实例实施例3所述的方法,其中所述器乐声是钢琴声。[0074]EEE5.根据实例实施例2所述的方法,其中所述宽带信号对应于专业电影内容,且所述窄带信号对应于低质量窄带UGC内容。[0075]EEE6.根据实例实施例1到5中任一实例实施例所述的方法,其中确定所述输入音频信号中是否已发生场景切换是基于输入音频信号的所有频带分量。[0076]EEE7.根据实例实施例6所述的方法,其中确定所述输入音频信号中是否已发生场景切换是基于信号功率谱质心的时变估计。[0077]EEE8.根据实例实施例7所述的方法,其中所述场景切换分析器至少通过执行包括以下各者的操作来计算所述信号功率谱质心的所述时变估计:[0078]通过使每一频带分量信号平滑来估计信号功率谱;及[0079]使用所述估计的信号功率谱确定所述信号功率谱的所述质心。[0080]EEE9.根据实例实施例8所述的方法,其中确定所述输入音频信号中是否已发生所述场景切换包括:[0081]使所述质心平滑;10CN112640301A说 明 书8/8页[0082]确定所述质心与所述平滑质心之间的差;及[0083]基于所述差是否满足阈值来确定是否已发生所述场景切换。[0084]EEE10.根据实例实施例6到9中任一实例实施例所述的方法,其中确定所述输入音频信号中是否已发生场景切换是基于所述信号功率谱的截止带的估计。[0085]EEE11.根据实例实施例10所述的方法,其中所述场景切换分析器至少通过执行包括以下各者的操作来计算所述信号功率谱的所述截止带的所述估计:[0086]通过使每一频带分量信号平滑来估计信号功率谱;及[0087]使用所述估计的信号功率谱确定所述信号功率谱的所述截止带。[0088]EEE12.根据实例实施例11所述的方法,其中确定所述输入音频信号中是否已发生所述场景切换包括:[0089]使所述截止带平滑;[0090]确定所述截止带与所述平滑截止带之间的差;及[0091]基于所述差是否满足阈值来确定是否已发生所述场景切换。[0092]EEE13.根据上述实例实施例中任一实例实施例所述的方法,其中所述场景切换分析器向失真可听度模型提供一或多个控制信号,以在确定是否已发生所述场景切换之后将所述平滑引导到所述输入音频信号的所述频带分量的压缩器阈值。[0093]EEE14.根据实例实施例13所述的方法,其中一或多个控制信号引导包含攻击时间常数及/或释放时间常数的时间常数的改变。[0094]EEE15.根据实例实施例13或14所述的方法,其中一或多个控制信号的函数被映射到范围[0,1]。[0095]EEE16.根据实例实施例15所述的方法,其中所述映射函数是阶跃函数或S型函数。[0096]EEE17.一种场景切换分析器,其包括:[0097]一或多个计算装置;及[0098]计算机可读存储媒体,其存储指令,所述指令在由一或多个处理器执行时使所述一或多个处理器执行实例实施例1到16中任一实例实施例的操作。[0099]EEE18.一种计算机可读存储媒体,其存储指令,所述指令在由一或多个计算装置执行时使所述一或多个计算装置执行实例实施例1到16中任一实例实施例的操作。[0100]EEE19.一种计算机程序产品,其具有指令,所述指令在由计算装置或系统执行时使所述计算装置或系统执行根据实例实施例1到16中任一实例实施例所述的方法。11CN112640301A说 明 书 附 图1/6页图112CN112640301A说 明 书 附 图2/6页图213CN112640301A说 明 书 附 图3/6页图314CN112640301A说 明 书 附 图4/6页图415CN112640301A说 明 书 附 图5/6页图516CN112640301A说 明 书 附 图6/6页图6A图6B17
本文档为【具有基于场景切换分析器引导的失真可听度模型的动态阈值的减少失真的多带压缩器】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: ¥10.0 已有0 人下载
最新资料
资料动态
专题动态
机构认证用户
掌桥科研
掌桥科研向科研人提供中文文献、外文文献、中文专利、外文专利、政府科技报告、OA文献、外军国防科技文献等多种科研资源的推广、发现、揭示和辅助获取服务,以及自动文档翻译、人工翻译、文档格式转换、收录引证等科研服务,涵盖了理、工、医、农、社科、军事、法律、经济、哲学等诸多学科和行业的中外文献资源。
格式:pdf
大小:824KB
软件:PDF阅读器
页数:17
分类:
上传时间:2022-01-25
浏览量:0