基于房间特性自动均衡音频输出的方法和系统

基于房间特性自动均衡音频输出的方法和系统(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN110663173A(43)申请公布日2020.01.07(21)申请号201880034116.3迈克尔·斯梅德加德　(22)申请日2018.07.16(74)专利代理机构中原信达知识产权代理有限(30)优先权数据责任公司1121962/568,2192017.10.04US代理人李宝泉　任庆威62/568,2162017.10.04US(51)Int.Cl.(85)PCT国际申请进入国家阶段日H03G5/16(2006.01)2019...

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN110663173A(43)申请公布日2020.01.07(21)申请号201880034116.3迈克尔·斯梅德加德　(22)申请日2018.07.16(74)专利代理机构中原信达知识产权代理有限(30)优先权数据责任公司1121962/568,2192017.10.04US代理人李宝泉　任庆威62/568,2162017.10.04US(51)Int.Cl.(85)PCT国际申请进入国家阶段日H03G5/16(2006.01)2019.11.22H04S7/00(2006.01)H04R3/04(2006.01)(86)PCT国际申请的申请数据PCT/US2018/0423452018.07.16(87)PCT国际申请的公布数据WO2019/070328EN2019.04.11(71)申请人谷歌有限责任公司地址美国加利福尼亚州(72)发明人本杰明·路易斯·沙亚　拉斯穆斯·拉尔森　理查德·莱恩　权利要求书2页说明书27页附图29页(54)发明名称基于房间特性自动均衡音频输出的方法和系统(57)摘要本文所述各种实施方式包括用于自动音频均衡的方法、装置和系统。在一个方面，在包括扬声器、麦克风、处理器和存储器的计算系统执行所述方法。计算系统输出音频用户内容并自动均衡计算系统的音频输出。均衡包括：(1)在多个麦克风的每个麦克风接收所输出的音频内容；(2)基于所接收的音频内容确定房间的声学传递函数；(3)基于所确定的声学传递函数获得房间的频率响应；(4)基于所确定的频率响应调整扬声器的一个或多个属性。CN110663173ACN110663173A权　利　要　求　书1/2页1.一种用于均衡音频输出的方法，包括：在具有一个或多个扬声器、多个麦克风、一个或多个处理器和存储器的计算系统处：从位于房间中的所述一个或多个扬声器输出音频用户内容；以及自动且无需用户输入地均衡所述计算系统的音频输出，所述均衡包括：在所述多个麦克风中的每个麦克风处接收所输出的音频内容；基于所接收的音频内容确定所述房间的声学传递函数；基于所确定的声学传递函数获得所述房间的频率响应；以及基于所确定的频率响应调整所述扬声器的一个或多个属性。2.根据权利要求1所述的方法，还包括：将所确定的声学传递函数发送给远程服务器系统；以及其中，获得所述频率响应包括响应于发送所确定的声学传递函数而从所述远程服务器系统接收所述频率响应。3.根据权利要求1或权利要求2所述的方法，其中，所述一个或多个属性包括频率属性和/或相位属性。4.根据权利要求1至3中的任一项所述的方法，还包括：在确定所述声学传递函数之前，确定所述用户内容包括频率低于所述房间的转变频率的音频。5.根据权利要求1至4中的任一项所述的方法，其中，所述一个或多个扬声器包括多个扬声器；所述方法还包括确定所述多个扬声器的相对位置；以及其中，调整所述扬声器的一个或多个属性还基于所述多个扬声器的相对位置。6.根据权利要求1至5中的任一项所述的方法，还包括确定所述计算系统是否以单声道模式操作。7.根据权利要求1至6中的任一项所述的方法，其中，所述多个麦克风包括在多个不同装置上的麦克风。8.根据权利要求1至6中的任一项所述的方法，其中，所述多个麦克风和所述一个或多个扬声器位于同一装置内。9.根据权利要求1至8中的任一项所述的方法，其中，确定所述声学传递函数包括确定所述一个或多个扬声器是否靠近所述房间的一个或多个边界。10.根据权利要求1至9中的任一项所述的方法，其中，确定所述房间的声学传递函数包括通过利用一种或多种机器学习技术来确定所述声学传递函数。11.根据权利要求10所述的方法，其中，在所述计算系统处执行机器学习。12.根据权利要求1至11中的任一项所述的方法，其中，在输出所述音频用户内容的同时，连续地进行所述均衡。13.根据权利要求1至12中的任一项所述的方法，还包括确定所述多个麦克风的相对位置；其中，确定所述声学传递函数包括基于所述多个麦克风的相对位置来确定所述声学传递函数。14.根据权利要求1至13中的任一项所述的方法，还包括经由一个或多个相机确定所述多个麦克风中的每个麦克风在所述房间中的相应位置；以及2CN110663173A权　利　要　求　书2/2页其中，所述房间的声学传递函数基于所述相应位置。15.一种方法，包括：针对多个房间内的多个位置中的每个位置，通过以下步骤生成音频均衡神经网络：将音频系统定位在所述位置，所述音频系统具有多个麦克风和一个或多个扬声器；经由所述一个或多个扬声器输出一个或多个音频信号；通过在所述多个麦克风的每个麦克风处接收所输出的一个或多个音频信号来获得音频信号的集合；基于所述音频信号的集合，获得所述位置的特征向量；以及将对应于所述特征向量的一个或多个节点添加到神经网络；以及训练所述均衡神经网络。16.根据权利要求15所述的方法，其中，训练所述均衡神经网络包括监督训练和/或强化训练。17.根据权利要求15或16所述的方法，其中，训练所述均衡神经网络包括训练所述均衡神经网络以生成用于所述一个或多个扬声器附近的一个或多个边界的补偿函数。18.一种计算系统，包括：一个或多个处理器；以及存储器，所述存储器耦合到所述一个或多个处理器，所述存储器存储被配置为要由所述一个或多个处理器执行的一个或多个程序，所述一个或多个程序包括用于执行权利要求1至17中的任一项所述的方法的指令。19.一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令在由计算系统执行时使得所述系统执行权利要求1至17中的任一项所述的方法。3CN110663173A说　明　书1/27页基于房间特性自动均衡音频输出的方法和系统技术领域[0001]本发明一般涉及音频均衡，包括但不限于不需要用户动作的用于自动音频均衡的方法和系统。背景技术[0002]集成了麦克风和扬声器的电子装置已经广泛用于收集来自用户的语音输入并输出声音(例如，音乐和讲话)。音频输出的质量会受到诸如房间环境和扬声器在房间中的放置等因素的影响。手动音频均衡是一种用于调整音频输出的不同频率的增益(响应)的过程，通常用于提高输出声音的质量。但是，对于用户而言，手动均衡是一项繁琐且耗时的任务。此外，它需要关于扬声器、麦克风和房间的大量知识，这对于普通用户而言太高级了。[0003]因此，需要用户能够体验高质量的音频而无需用户的时间和精力或者扬声器、麦克风和音频均衡过程的详细知识。希望电子装置能够独立于任何用户交互而自动进行音频均衡。发明内容[0004]需要用于自动音频均衡的方法、装置和系统。在后附权利要求保护范围内的系统、方法和装置的各种实施方式均具有多个方案，没有一个方案单独负责本文所述的属性。在不限制后附权利要求保护范围的情况下，在考虑本公开之后，尤其是在考虑了标题为“具体实施方式”的部分之后，将理解如何使用各种实施方式的方案来自动(没有用户输入)均衡音频输出。[0005]音频装置包括集成了麦克风和扬声器的电子装置广泛用于收集来自用户的语音输入并输出声音例如音乐或讲话。输出的音频质量并且因此用户的聆听体验可能会受到诸如房间的风格以及房间中装置/扬声器的放置等因素的影响。例如，具有坚硬表面的房间会遭受明显的回声问题。将扬声器放置在边界上或边界附近诸如在地板上或紧邻墙壁增强低频音调，并可能导致“嗡嗡”低音。因此，为了获得一致的输出音频质量，需要低音频率的均衡例如校正以抵消房间和放置的影响。[0006]手动房间均衡通常是一个繁琐的过程，每次房间或位置改变时都要重复进行。用户必须有麦克风，并且必须使用麦克风在房间中的各个位置记录音频输出响应。然后，用户必须基于所收集的响应来应用所需的校正。此外，这种手动均衡过程需要关于扬声器、麦克风和房间的大量知识，这对于普通用户而言太高级了。自动音频均衡为用户提供了获得最佳聆听体验的机会，同时避免了任何设置或校准过程。此外，自动均衡过程使得用户能够重新布置房间或移动扬声器，而不必担心进行另一个烦人的手动均衡。[0007]需要调整驱动扬声器装置的信号的频率响应或均衡，以使其无论是在开阔地、墙壁附近还是角落中声音都一致。[0008]一些均衡方法使用扬声器正前方的麦克风(例如，在扬声器前面的两个位置)。提供公式用于估计声学辐射阻抗，它取决于频率而变，与扬声器有多少功率耦合到房间有关，4CN110663173A说　明　书2/27页因此当墙壁的反射导致在低频下辐射阻抗的增加时，可以使用它来估计补偿均衡。但是，在某些情况下，使用外部麦克风手动操作并非可行的解决方案。[0009]根据一些实施方式，使用扬声器装置内的麦克风来进行这个调整。这样避免了任何设置或校准过程或远程传感器的需要。[0010]根据一些实施方式，一种自动均衡方法在扬声器顶部使用麦克风，一个靠近扬声器的前面，一个靠近扬声器的后面，以感测从扬声器向后面的墙壁传播的声波以及从这些墙壁反射的任何声波的相对贡献。在一些实例和实施方式中，在足够低的频率(例如，波长比到反射器的往返距离长)处，预计在麦克风之间从直接来自扬声器的声波的有一定的延迟或相移；并且对于从扬声器后面的墙壁反射回来的声波，预计在麦克风之间所述延迟或相移减少。[0011]在较高的频率处，反射的作用更为复杂，但是通过可以学习和识别的模式，以获取每个位置的良好均衡。因此，根据一些实施方式，在播放音乐时，自动均衡方法使用音乐作为刺激来测量相对相位，并进行一些频率分析来估计相位模式特征。[0012]在一些实施方式中，电子装置包括位于扬声器侧面的一对麦克风(例如，除了扬声器装置顶部的麦克风之外)。在一些实施方式中，装置包括前后分离的多对麦克风。在一些实施方式中，多对麦克风同时位于扬声器的顶部和侧面。在一些实施方式中，麦克风只在扬声器的主体上，远离驱动器，而不是在前方外部。在一些实施方式中，麦克风在扬声器装置内部。例如，麦克风和扬声器是同一电子装置的组件。在一些实施方式中，麦克风处于内部位置，在这些位置它们也可用于其他功能，例如语音识别(例如，在语音启动的智能扬声器中)。在一些实施方式中，将麦克风定位以捕捉来自扬声器装置附近的一个或多个人员的音频。[0013]在一些实施方式中，系统基于扬声器的用户内容(例如，音乐)输出而不是要求测试信号(例如，没有蜂鸣声或扫频音)来进行音频均衡。在一些实施方式中，使用一对或多对麦克风来测量所接收的音频输出中的相移。在一些实施方式中，测量一对或多对麦克风之间的相对相位(相位差)。在一些实施方式中，使用相对幅度频谱特征来确定频率(声学)响应。在一些实施方式中，相对幅度频谱特征与麦克风匹配和/或校准结合使用。在一些实例和实施方式中，向相位差赋予权重使得麦克风之间的灵敏度差异对均衡过程的影响最小化。在一些实施方式中，均衡包括以低于阈值频率(例如，低于约300Hz，其中波长约为1.1m)校正频率响应。在一些实例和实施方式中，仅低于阈值频率的频率从扬声器沿所有方向传播，包括向后传播，因此是受到扬声器后面的墙壁或角落影响的唯一频率。[0014]在一些实施方式中，获得传声器相对于彼此的相对位置，并将其用于确定相位差。在一些实施方式中，在没有任何关于麦克风相对于扬声器的相对位置的信息的情况下进行自动均衡。[0015]在一些实施方式中，基于声学模型执行自动均衡。在一些实施方式中，装置基于房间位置来学习和识别模式，并应用对应的均衡校正。[0016]在一些实施方式中，使用机器学习执行自动均衡。在一些实施方式中，机器学习包括针对位置和/或频率范围的期望校正来训练装置(例如，可以从专家听众获得训练目标，或通过在聆听区域中的辅助麦克风测量频谱，或通过在扬声器驱动器前面使用辅助麦克风的ABC方法)。在一些实施方式中，将最近邻居分类器算法用于识别适当的校正(例如，以在5CN110663173A说　明　书3/27页50-300Hz范围内的频率估计的相位作为特征向量)。在一些实施方式中，将非线性逻辑回归(例如具有S形输出的多层神经网络)用于识别适当的校正。在一些实施方式中，利用机器学习能够对于很多位置和反射材料实现校正。在一些实施方式中，利用其他机器学习方法。[0017]如上所述，为用户设置房间均衡通常很繁琐。一般而言，用户必须使用麦克风(例如，智能手机)来进行声学测量，以捕捉房间中各个位置的测量信号。[0018]在一些实施方式中，通过使用位于房间不同位置的多个电子装置(例如，音频助理产品的集群)，一次使用一个电子装置的一个扬声器来生成声音信号，并将其他电子装置的麦克风用于捕捉房间各个位置的相应声音响应。在一些实施方式中，通过使得每个扬声器能够生成声学刺激来自动捕捉关于房间的声学传递函数的信息。在一些实施方式中，使用机器学习算法在服务器系统上(例如，在云中)处理房间响应数据，以生成房间均衡曲线。在一些实施方式中，将所生成的房间均衡曲线下载到电子装置，从而改善房间内频率响应而无需用户交互。[0019]在一个方面，一些实施方式包括一种在具有一个或多个扬声器、多个麦克风、一个或多个处理器和存储器的电子装置上进行的用于均衡音频输出的方法。所述方法包括：(1)从位于房间中的所述一个或多个扬声器输出音频用户内容；以及(2)自动且无需用户输入地均衡所述电子装置的音频输出，所述均衡包括：(a)获得音频内容信号的集合，包括在多个麦克风的每个麦克风接收所输出的音频内容；(b)根据音频内容信号的集合确定多个麦克风的麦克风之间的多个相位差(例如，传递函数)；(c)基于多个相位差获得特征向量；(d)基于所获得的特征向量，根据校正数据库获得频率校正(例如，频率校正曲线)；以及(e)将所获得的频率校正应用于后续音频输出。在一些实施方式中，所述方法还包括在一个或多个麦克风确定所输出的音频内容与所接收的音频内容之间的一个或多个相位差。在一些实施方式中，将多个麦克风定位为相互之间是近场。[0020]在另一个方面，一些实施方式包括一种生成校正数据库的方法。所述方法包括：对于多个房间内多个位置的每个位置：(1)将扬声器装置定位在所述位置；(2)经由扬声器装置输出训练音频；(3)在两个或更多个麦克风接收所输出的训练音频；(4)基于所输出的训练音频生成参考特征向量和参考频率校正；(5)将参考特征向量和参考频率校正值添加到校正数据库。[0021]在另一个方面，一些实施方式包括一种在具有一个或多个扬声器、多个麦克风、一个或多个处理器和存储器的计算系统上进行的均衡音频输出的方法。所述方法包括：(1)从位于房间中的所述一个或多个扬声器输出音频用户内容；以及(2)自动且无需用户输入地均衡所述计算系统的音频输出，所述均衡包括：(a)在多个麦克风的每个麦克风接收所输出的音频内容；(b)基于所接收的音频内容，确定房间的声学传递函数(例如，阻抗)；(c)基于所确定的声学传递函数，获得房间的频率响应(例如，房间/分贝增益)；以及(d)基于所确定的频率响应，调整扬声器的一个或多个属性。在一些实施方式中，独立于任何特定用户请求来进行均衡。在一些实施方式中，在不需要任何用户动作的情况下进行均衡。在一些实施方式中，计算系统基于声纳、雷达或经由高频映射来确定它在房间内的位置。[0022]在另一个方面，一些实施方式包括一种用于训练均衡神经网络的方法。所述方法包括：(1)针对多个房间内多个位置的每个位置，通过以下步骤生成音频均衡神经网络：(a)将音频系统定位在所述位置，所述音频系统具有多个麦克风和一个或多个扬声器；(b)经由6CN110663173A说　明　书4/27页所述一个或多个扬声器输出一个或多个音频信号；(c)通过在所述多个麦克风的每个麦克风接收所输出的一个或多个音频信号来获得音频信号的集合；(d)基于所述音频信号的集合，获得所述位置的特征向量；以及(e)将对应于所述特征向量的一个或多个节点添加到神经网络；以及(2)训练所述均衡神经网络。[0023]在另一个方面，一些实施方式包括一种计算系统，所述计算系统包括一个或多个处理器以及耦合到所述一个或多个处理器的存储器，所述存储器存储被配置为要由所述一个或多个处理器执行的一个或多个程序，所述一个或多个程序包括用于执行本文所述任一项方法的指令。[0024]在另一个方面，一些实施方式包括一种计算机可读存储介质，用于存储通过计算系统的一个或多个处理器执行的一个或多个程序，所述一个或多个程序包括用于执行本文所述任一项方法的指令。[0025]因此，向装置、存储介质和计算系统提供用于自动音频均衡的方法，从而提高这种系统的有效性、效率和用户满意度。这些方法可以补充或替代用于音频均衡的常规方法。附图说明[0026]为了更好地理解各种所述实施方式，结合以下附图参考以下实施方式的描述，其中，相似的附图标记在所有附图中表示对应的部分。[0027]图1A和图1B示出根据一些实施方式的用于自动音频均衡的代表性电子装置。[0028]图2是示出根据一些实施方式的包括多个电子装置和服务器系统的代表性操作环境的方框图。[0029]图3A是示出根据一些实施方式的代表性电子装置的方框图。[0030]图3B是示出根据一些实施方式的图3A中的电子装置的校正数据库和机器学习数据库的子模块的方框图。[0031]图4A是示出根据一些实施方式的代表性服务器系统的方框图。[0032]图4B是示出根据一些实施方式的图4A中的服务器系统的校正数据库和机器学习数据库的子模块的方框图。[0033]图5A-图5C示出根据一些实施方式的示例频率响应。[0034]图6A和图6B示出根据一些实施方式的图3A的电子装置的示例定位和操作。[0035]图6C是根据一些实施方式的在图6B中定位的电子装置的侧视图，示出电子装置的音频输出。[0036]图6D是根据一些实施方式的在图6B中定位的电子装置的平面图，示出电子装置的音频输出。[0037]图7A-图7C示出根据一些实施方式的图3A的电子装置的示例定位和操作。[0038]图7D是根据一些实施方式的在图7B中定位的电子装置的侧视图，示出电子装置的音频输出。[0039]图7E是根据一些实施方式的在图7B中定位的电子装置的平面图，示出电子装置的音频输出。[0040]图8A-图8C示出根据一些实施方式的图3A的电子装置的示例定位和操作。[0041]图8D-图8F是示出根据一些实施方式的在图8B中定位的电子装置的示例操作顺序7CN110663173A说　明　书5/27页的平面图。[0042]图9A-图9H示出根据一些实施方式的图3A的电子装置在房间中的各个位置的示例响应。[0043]图10是根据一些实施方式的用于利用单个电子装置进行自动音频输出均衡的方法的流程图表示。[0044]图11是根据一些实施方式的用于利用多个电子装置进行自动音频输出均衡的方法的流程图表示。[0045]图12是示出根据一些实施方式的通过利用神经网络的机器学习的频率校正过程的方框图。[0046]图13是示出根据一些实施方式的在电子装置的均衡模块执行的音频信号处理的方框图。[0047]图14A至图14B示出根据一些实施方式的在电子装置的示例校正数据库。[0048]在所有附图中，相似的附图标记表示对应的部分。具体实施方式[0049]下面详细参考实施方式，附图示出其示例。在下面的详细描述中，给出很多具体细节，以便提供对各种所述实施方式的透彻理解。但是，对于本领域技术人员而言显然，没有这些具体细节也可以实践各种所述实施方式。在其他情况下，没有详细描述公知的方法、过程、组件、电路和网络，以免不必要地混淆实施方式的方案。[0050]将集成了麦克风和扬声器的电子装置配置为接收和输出声音。这些装置输出的声音可能实际上受到它们在聆听房间中的放置的影响。例如，取决于聆听房间中附近反射表面的数量(例如，附近的家具、墙壁或天花板)，电子装置输出的声音的低音频率在被听众感知时可能实际上被放大。在某些聆听环境中和/或对于扬声器上播放的某些音频内容，由于房间效应导致电子装置输出的声音失真带来不太理想的聆听体验。在一些实施方式中，还将这些电子装置配置为进行自动音频均衡，以校正对于其输出声音的房间效应。在一些实施方式中，电子装置通过分析聆听环境中的一个或多个麦克风所接收的声音而独立于任何用户交互来校正房间效应，从而使得用户能够方便轻松地在任何位置享受高质量聆听体验。在一些实施方式中，为此目的采用的麦克风是电子装置所提供的麦克风，所述电子装置是待均衡的输出声音的源。在一些实施方式中，为此目的采用的麦克风是在聆听环境中其他电子装置所提供的麦克风。[0051]自动均衡考虑诸如房间和装置位置之类的因素。扬声器输出麦克风所收集的音频。根据所收集的音频，确定包括相位、相位差和音频响应的信息。使用所确定的信息，通过电子装置(例如，使用装置上本地可用的校正数据库)或在服务器生成对应的均衡校正。最后，自动且无需给电子装置的用户输入地应用均衡校正。[0052]图1A示出根据一些实施方式用于自动音频均衡的电子装置100。电子装置100包括一个或多个低音扬声器102(例如，102-1和102-2)、一个或多个高音扬声器104和多个麦克风106。在一些实施方式中，扬声器102包括不同类型的扬声器，例如低频低音扬声器和高频高音/高频扬声器。在一些实施方式中，电子装置100包括三个或更多个扬声器102。在一些实施方式中，以不同的几何形状布置(例如，以三角形配置)扬声器102。在一些实施方式中，8CN110663173A说　明　书6/27页电子装置100不包括任何高频扬声器104。在一些实施方式中，电子装置100包括少于六个的麦克风106。在一些实施方式中，电子装置100包括超过六个的麦克风106。在一些实施方式中，麦克风106包括两个或更多个不同类型的麦克风。[0053]在图1A中，将麦克风106布置为三个一组，其中一个麦克风(例如，麦克风106-3)在电子装置100的正面，而群组中的其他两个麦克风(例如，麦克风106-1和106-2)在电子装置100的侧面或顶部。在一些实施方式中，将麦克风106布置在电子装置100内除了图1A所示位置之外的位置。在一些实施方式中，在电子装置100中通过不同的方式将麦克风106分组。例如，将麦克风106布置为四个一组，其中一个麦克风在装置100的正面，一个麦克风在装置100的背面。在一些实施方式中，将麦克风106相对于扬声器102定向和/或定位。例如，一个麦克风(例如106-3)朝向与扬声器102相同的方向，而其他麦克风(例如106-1和106-2)垂直于(或大体上垂直于)扬声器102的方向。作为另一个示例，一个麦克风(例如106-3)的位置比其他麦克风(例如106-1和106-2)更靠近扬声器102。因此，在一些实施方式中，将麦克风106定位为使得在所接收的音频中出现相位差并且可以分析，以确定房间特性。[0054]图1B示出根据一些实施方式用于自动音频均衡的电子装置120。在一些实施方式中，电子装置120包括麦克风122、照明器124的阵列(例如，LED)以及位于网格126后面的一个或多个扬声器。此外，电子装置120后侧可选地包括配置为耦合到电源(未示出)的电源连接器。在一些实施方式中，电子装置120包括比图1B所示更多或更少的麦克风122。在一些实施方式中，将麦克风122布置在电子装置120内除了图1B所示位置之外的位置。[0055]在一些实施方式中，电子装置100和/或电子装置120是语音激活的。在一些实施方式中，电子装置100和/或电子装置120呈现没有可见按钮的干净外观，并且与电子装置120的交互是基于语音和触摸手势。替代性地，在一些实施方式中，电子装置100和/或电子装置120包括有限数量的物理按钮(未示出)，并且与电子装置的交互除了语音和/或触摸手势之外，还基于按下按钮。[0056]图2是示出根据一些实施方式包括多个电子装置100、120和202以及服务器系统206、220的操作环境200的方框图。操作环境包括一个或多个电子装置100、120和202，它们位于限定空间内的一个或多个位置，例如，在单个房间或结构的空间内，或者在开放空间的限定区域内。[0057]电子装置202的示例包括电子装置100、电子装置120、手持式计算机、可穿戴计算装置、个人数字助理(PDA)、平板计算机、膝上型计算机、桌面型计算机、蜂窝电话、智能电话、语音激活装置、增强型通用分组无线服务(EGPRS)移动电话、媒体播放器或这些数据处理装置或其他数据处理装置中的任何两个或多个的组合。[0058]根据一些实施方式，电子装置100、120和202通过通信网络210可通信地耦合到服务器系统206和智能助理系统220。在一些实施方式中，电子装置中的至少一部分(例如，装置100、120和202-1)可通信地耦合到局域网204，局域网204可通信地耦合到通信网络210。在一些实施方式中，局域网204是在网络接口(例如，路由器)实现的本地网络。在一些实施方式中，可通信地耦合到局域网204的电子装置100、120和202也通过局域网204相互通信。在一些实施方式中，电子装置100、120和202可通信地相互耦合(例如，无需通过局域网204或通信网络210)。[0059]可选地，一个或多个电子装置可通信地耦合到通信网络210，并且不在局域网2049CN110663173A说　明　书7/27页上(例如，电子装置202-N)。例如，这些电子装置不在与局域网204相对应的Wi-Fi网络上，而是通过蜂窝连接连接到通信网络210。在一些实施方式中，通过语音辅助服务器224进行在局域网204上的电子装置100、120和202与不在局域网204上的电子装置100、120和202之间的通信。因此，将电子装置202注册在装置注册222中，并因此被语音辅助服务器224所知。[0060]在一些实施方式中，服务器系统206包括前端服务器212，其帮助经由通信网络210在服务器系统206与电子装置100、120和202之间的通信。例如，前端服务器212从电子装置202接收音频内容(例如，音频内容是音乐和/或讲话)。在一些实施方式中，将前端服务器212配置为向电子装置202发送信息。在一些实施方式中，将服务器212配置为发送均衡信息(例如，频率校正)。例如，前端服务器212响应于所接收的音频内容向电子装置发送均衡信息。在一些实施方式中，将前端服务器212配置为将数据和/或超链接发送给电子装置100、120和/或202。例如，将前端服务器212配置为向电子装置发送更新(例如，数据库更新)。[0061]在一些实施方式中，服务器系统206包括均衡模块214，均衡模块214根据从电子装置202收集的音频信号确定关于音频信号的信息，例如频率、相位差、传递函数、特征向量、频率响应等。在一些实施方式中，均衡模块214从校正数据库216获得频率校正数据，以发送给电子装置(例如，经由前端服务器212)。在一些实施方式中，频率校正数据是基于关于音频信号的信息。在一些实施方式中，均衡模块214将机器学习(例如，结合机器学习数据库218)应用于音频信号，以生成频率校正。[0062]在一些实施方式中，服务器系统206包括存储频率校正信息的校正数据库216。例如，校正数据库216包括音频特征向量和对应频率校正的配对。[0063]在一些实施方式中，服务器系统206包括存储机器学习信息的机器学习数据库218。在一些实施方式中，机器学习数据库218是分布式数据库。在一些实施方式中，机器学习数据库218包括深度神经网络数据库。在一些实施方式中，机器学习数据库218包括监督训练和/或强化训练数据库。[0064]图3A是示出根据一些实施方式的电子装置300的方框图。在一些实施方式中，电子装置300是或包括图2的电子装置100、120、202的其中任何一个。电子装置300包括一个或多个处理器302、一个或多个网络接口304、存储器306以及用于互连这些组件(有时称为芯片组)的一个或多个通信总线308。[0065]在一些实施方式中，电子装置300包括一个或多个帮助音频输入和/或用户输入的输入装置312，例如麦克风314、按钮316和触摸传感器阵列318。在一些实施方式中，麦克风314包括麦克风106、麦克风122和/或其他麦克风。[0066]在一些实施方式中，电子装置300包括帮助音频输出和/或视觉输出的一个或多个输出装置322，包括一个或多个扬声器324、LED 326和显示器328。在一些实施方式中，LED 326包括照明器124和/或其他LED。在一些实施方式中，扬声器324包括低音扬声器102、高频扬声器104、装置120的扬声器和/或其他扬声器。[0067]在一些实施方式中，电子装置300包括无线电320和一个或多个传感器330。无线电320启动一个或多个通信网络，并允许电子装置300与其他装置通信。在一些实施方式中，无线电装置320能够使用各种定制或标准无线协议 (例如，IEEE 802.15.4、Wi-Fi、ZigBee、6LoWPAN、Thread、Z-Wave、Bluetooth Smart、ISA100.5A、WirelessHART、MiWi等)、定制或标准有线协议(例如，Ethernet、HomePlug等)和/或任何其他合适的通信协议，包括截至本文10CN110663173A说　明　书8/27页提交之日尚未开发的通信协议来进行数据通信。[0068]在一些实施方式中，传感器330包括一个或多个运动传感器(例如，加速度计)、光传感器、定位传感器(例如，GPS)和/或音频传感器。在一些实施方式中，定位传感器包括一个或多个位置传感器(例如，被动红外(PIR)传感器)和/或一个或多个方位传感器(例如，陀螺仪)。[0069]存储器306包括高速随机存取存储器，例如DRAM、SRAM、DDR RAM或其他随机存取固态存储器装置；并且可选地，包括非易失性存储器，例如一个或多个磁盘存储装置、一个或多个光盘存储装置、一个或多个闪存装置或一个或多个其他非易失性固态存储装置。存储器306可选地包括一个或多个远离一个或多个处理器302的存储装置。存储器306或存储器306内的非易失性存储器包括非暂时性计算机可读存储介质。在一些实施方式中，存储器306或存储器306的非暂时性计算机可读存储介质存储以下程序、模块和数据结构或其子集或超集：[0070]·操作逻辑332，包括用于处理各种基本系统服务和用于进行硬件相关任务的过程；[0071]·用户界面模块334，用于提供和显示用户界面，可以在其中配置和/或查看设置、捕捉的数据(包括热词)和/或用于一个或多个装置(例如，电子装置300和/或其他装置)的其他数据；[0072]·无线通信模块336，用于连接到其他网络装置并与之通信(例如，局域网204，例如提供互联网连接的路由器、联网存储装置、网络路由装置、服务器系统206、智能家庭服务器系统220等)，经由一个或多个通信接口304(有线或无线)耦合到一个或多个通信网络210；[0073]·音频输出模块338，用于确定和/或呈现音频信号(例如，结合扬声器324)；[0074]·麦克风模块340，用于获得和/或分析音频信号(例如，结合麦克风314)；[0075]·定位模块344，用于获得和/或分析定位信息(例如，方位和/或位置信息)，例如，结合传感器330；[0076]·均衡模块346，用于均衡电子装置300的音频输出，包括但不限于：[0077]○音频分析子模块3461，用于分析从输入装置(例如，麦克风)收集的音频信号，例如，确定音频属性(例如，频率、相移和/或相位差)和/或生成音频频率的快速傅立叶变换(FFT)；[0078]○校正子模块3462，用于从校正数据库352获得频率校正和/或将频率校正应用于电子装置300；[0079]○传递函数子模块3463，用于使用所分析的音频信号确定特征向量、声学传递函数(将音频输出与音频输入相关)和/或电子装置300的频率响应；以及[0080]○加权子模块3464，用于为各个音频信号和/或音频属性(例如，相位差和/或信噪比)分配不同的权重；[0081]·训练模块348，用于生成和/或训练音频模型，以及可选地与电子装置300相关联的指纹音频事件；[0082]·装置数据库350，用于存储与电子装置300相关的信息，包括但不限于：[0083]○传感器信息3501，与传感器330相关联；11CN110663173A说　明　书9/27页[0084]○电子装置300的装置设置3502，例如默认选项和优选用户设置；以及[0085]○通信协议信息3503，用于指定电子装置300所要使用的通信协议；[0086]·校正数据库352，用于存储频率校正信息，如参考图3B更详细所述；以及[0087]·机器学习数据库354，用于存储机器学习信息，如参考图3B更详细所述。[0088]图3B是示出根据一些实施方式的图3A中的电子装置300的校正数据库352和机器学习数据库354的子模块的方框图。在一些实施方式中，校正数据库352包括以下数据集或其子集或超集：[0089]·位置数据3521，与关联音频装置的不同位置和/或方位相对应(例如，麦克风和/或扬声器的定位)；[0090]·矢量数据3522，包括与关联音频装置的不同位置和/或方位相对应的相移、相位差和/或特征向量；[0091]·权重信息3523，包括分配给不同信噪比、麦克风、成对麦克风和/或麦克风定位的权重；[0092]·训练音频3524，包括与构造校正数据库352一起使用的训练数据(例如，白噪声、粉红噪声等)；以及[0093]·校正数据3525，存储用于校正音频装置的音频响应的信息，包括但不限于：[0094]○频率响应3526，包括对应于音频装置的不同位置和/或方向的频率响应和/或特征向量；以及[0095]○频率校正3527，对应于各个频率响应3526。[0096]此外如图3B所示，根据一些实施方式，机器学习数据库354包括以下数据集或其子集或超集：[0097]·神经网络数据3541，包括与一个或多个神经网络的操作相对应的信息，包括但不限于：[0098]○定位信息3542，包括与音频装置的不同位置和/或方位相对应的信息(例如，特征向量)；以及[0099]○校正数据3543，对应于定位信息3542。[0100]以上标识的模块的每个模块都可以可选地存储在本文所述的一个或多个存储器装置中，并且对应于用于进行上述功能的指令集。以上标识的模块或程序不需要实现为单独的软件程序、过程、模块或数据结构，因此这些模块的各个子集可以在各种实施方式中组合或以其他方式重新布置。在一些实施方式中，存储器306存储以上标识的模块和数据结构的子集。此外，存储器306可选地存储以上未描述的附加模块和数据结构(例如，用于语音启动式智能扬声器中的热词检测和/或语音识别的模块)。在一些实施方式中，将程序的子集、模块和/或存储器306中存储的数据存储在服务器系统206和/或语音辅助服务器224上和/或由其执行。[0101]图4A是示出根据一些实施方式的服务器系统206的方框图。根据一些实施方式，服务器系统206包括一个或多个处理器402、一个或多个网络接口404、存储器410以及用于互连这些组件(有时称为芯片组)的一个或多个通信总线408。[0102]服务器系统206可选地包括一个或多个帮助用户输入的输入装置406，例如键盘、鼠标、语音命令输入单元或麦克风、触摸屏显示器、触敏输入板、手势捕捉相机或其他输入12CN110663173A说　明　书10/27页按钮或控件。在一些实施方式中，服务器系统206可选地使用麦克风和语音识别或相机和手势识别来补充或替换键盘。服务器系统206可选地包括一个或多个输出装置408，使得能够呈现用户界面并显示内容，例如一个或多个扬声器和/或一个或多个视觉显示器。[0103]存储器410包括高速随机存取存储器，例如DRAM、SRAM、DDR RAM或其他随机存取固态存储器装置；并且可选地，包括非易失性存储器，例如一个或多个磁盘存储装置、一个或多个光盘存储装置、一个或多个闪存装置或一个或多个其他非易失性固态存储装置。存储器410可选地包括位置远离一个或多个处理器402的一个或多个存储装置。存储器410或存储器410内的非易失性存储器包括非暂时性计算机可读存储介质。在一些实施方式中，存储器410或存储器410的非暂时性计算机可读存储介质存储以下程序、模块和数据结构或其子集或超集：[0104]·操作系统416，包括用于处理各种基本系统服务以及用于进行硬件相关任务的过程；[0105]·前端212，用于经由网络接口404(有线或无线)和一个或多个网络例如互联网、其他广域网、局域网、城域网等将服务器系统206可通信地耦合到其他装置(例如，电子装置100、120和202)；[0106]·用户界面模块420，用于在服务器系统或电子装置实现信息的呈现(例如，用于呈现应用程序、窗口小部件、网站及其网页、游戏、音频和/或视频内容、文本等的图形用户界面)；[0107]·装置注册模块422，用于注册与服务器系统206一起使用的装置(例如，电子装置300)；[0108]·均衡模块424，用于均衡电子装置(例如，电子装置300)的音频输出，包括但不限于：[0109]○音频分析子模块4241，用于分析从电子装置(例如，电子装置300)接收的音频信号，例如，确定音频属性(例如，频率、相移和/或相位差)和/或生成音频的快速傅立叶变换(FFT)；[0110]○校正子模块4242，用于从校正数据库216获得频率校正和/或将频率校正应用于电子装置300；[0111]○传递函数子模块4243，用于使用所分析的音频信号确定电子装置300的特征向量、声学传递函数(将音频输出与音频输入相关)和/或频率响应；以及[0112]○加权子模块4244，用于为各个音频信号和/或音频属性例如相位差和/或信噪比)分配不同的权重；[0113]·训练模块426，用于生成和/或训练音频模型，以及可选地，与电子装置300相关联的指纹音频事件；[0114]·服务器系统数据428，存储与服务器系统206相关的数据，包括但不限于：[0115]○客户端装置设置4281，包括用于一个或多个电子装置(例如，电子装置300)的装置设置，例如通用装置设置(例如，服务层、装置模型、存储容量、处理能力、通信能力等)，以及用于自动媒体显示控制的信息；[0116]○音频装置设置4282，包括与服务器系统206相关联的音频装置(例如，电子装置(多个)300)的音频设置，例如通用和默认设置(例如，扬声器和/或麦克风的音量设置等)；13CN110663173A说　明　书11/27页以及[0117]○语音辅助数据4283，用于语音激活装置和/或语音辅助服务器224的用户帐户，例如帐户访问信息以及用于一个或多个电子装置300的信息(例如，服务层、装置模型、存储容量、处理能力、通讯能力等)；[0118]·校正数据库216，用于存储频率校正信息，如参考图4B更详细所述；以及[0119]·机器学习数据库218，用于存储机器学习信息，如参考图4B更详细所述。[0120]在一些实施方式中，服务器系统206包括通知模块(未示出)，用于为电子装置的用户生成警报和/或通知。例如，在一些实施方式中，将校正数据库本地存储在用户的电子装置上，服务器系统206可以生成通知，以警告用户将最新版本或更新下载到校正数据库。[0121]图4B是示出根据一些实施方式的图4A中的服务器系统206的校正数据库216和机器学习数据库218的子模块的方框图。在一些实施方式中，校正数据库216包括以下数据集或其子集或超集：[0122]·位置数据4301，与关联音频装置的不同位置和/或方位(例如，麦克风和/或扬声器的定位)相对应；[0123]·向量数据4302，包括与关联音频装置的不同位置和/或方位相对应的相移、相位差和/或特征向量；[0124]·权重信息4303，包括分配给不同信噪比、麦克风、成对麦克风和/或麦克风定位的权重；[0125]·训练音频4304，包括用于与构建校正数据库216一起使用的训练数据(例如，白噪声、粉红噪声等)；以及[0126]·校正数据4305，存储用于校正音频装置的音频响应的信息，包括但不限于：[0127]○频率响应4306，包括对应于音频装置的不同位置和/或方位的频率响应和/或特征向量；以及[0128]○频率校正4307，对应于各个频率响应4306。[0129]如图4B所示，根据一些实施方式，机器学习数据库218包括以下数据集或其子集或超集：[0130]·神经网络数据4401，包括与一个或多个神经网络的操作相对应的信息，包括但不限于：[0131]○定位信息4402，包括与音频装置的不同位置和/或方位相对应的信息(例如，特征向量)；以及[0132]○校正数据4403，对应于定位信息4402。[0133]以上标识的元素的每个元素都可以存储在本文所述的一个或多个存储器装置中，并且对应于用于进行上述功能的指令集。以上标识的模块或程序不需要实现为单独的软件程序、过程、模块或数据结构，因此这些模块的各个子集可以在各种实施方式中组合或以其他方式重新布置。在一些实施方式中，存储器410可选地存储以上标识的模块和数据结构的子集。此外，存储器410可选地存储以上未描述的附加模块和数据结构。[0134]图5A-图5C示出根据一些实施方式的音频装置(例如，电子装置300)的示例频率响应。在图5A中，示出频率响应508。频率响应508在产生音频的频率范围内测量音频信号的幅度(例如，增益和/或响度)。频率响应508表示为包括在垂直轴502上的幅度(以分贝或dB为14CN110663173A说　明　书12/27页单位)和在水平轴504上的频率(以赫兹或Hz为单位)的曲线图。[0135]图5A还示出转变(或阈值)频率FT 506。在一些实施方式中，转变频率FT 506基于音频装置所在的房间。在一些实施方式中，转变频率FT 506是预定阈值(例如250Hz)。转变频率FT 506是音频波长与房间的尺寸相当的频率，因此在某些情况下，房间的共振起主导作用。转变频率FT 506有时称为谐振频率或Schroeder频率，在此频率以下，房间充当共振器。[0136]在一些实施方式中，频率响应508是均衡之前的测得的音频输出响应。在一些实施方式中，使用电子装置上的麦克风(例如，图1A中的麦克风106或图1B中的麦克风122)获得频率响应508。在一些实施方式中，频率响应508对应于音频装置在特定房间或开放空间中的位置。如图5A所示，在某些情况下，频率响应508包括在频率范围内(例如，在0Hz与FT 506之间)的幅度波动。在某些情况下，波动是音频装置在房间内的定位(例如，靠近房间中的边界和/或对象)和房间的特性(例如，房间中的边界和/或对象的音频反射率)的结果。[0137]图5A还示出目标频率响应510。在一些实施方式中，目标频率响应510是音频装置用户的理想频率响应。在一些实施方式中，目标频率响应510是这样一种频率响应，它是跨频带的最佳频率响应。在一些实施方式中，目标频率响应510表示在没有音频反射、吸收和散射的情况下音频装置的频率响应。因此，在某些情况下，目标频率响应510在频率范围内(例如，在0Hz和FT之间)不表现出幅度的波动。[0138]如图5A所示，在某些情况下，在低于转变频率FT 506的频率处，目标频率响应510表现出比实际频率响应508更低的幅度。在某些情况下，在高于转变频率FT 506的频率处，目标频率响应510表现出比实际频率响应508更高的幅度。在一些实施方式中，目标频率响应510在低于转变频率FT 506的频率范围内具有均匀的幅度。在一些实施方式中，目标频率响应510在高于转变频率FT 506的频率范围内具有均匀的幅度。在一些实施方式中，目标频率响应510是从校正数据库(例如，校正数据库216)获得的。在一些实施方式中，目标频率响应510是通过例如使用机器学习来分析音频装置的周围环境而获得的。[0139]图5B示出根据一些实施方式的校正后的频率响应518。在一些实施方式中，校正后的频率响应518是均衡校正之后的音频输出响应。在一些实施方式中，频率响应518是在已经应用针对目标频率响应510的校正之后来自音频装置的频率响应。[0140]如图5B所示，在低于转变频率FT 506的频率范围内，校正后的频率响应518表现出相当均匀的幅度(例如，与频率响应508相比)。在一些实施方式中，(未示出)频率响应518匹配目标频率响应510。在一些实施方式中，频率响应518在低于转变频率FT 506的频率处匹配目标频率响应510。在一些实施方式中，频率响应518在低于转变频率FT506的频率处具有与目标频率响应相似的幅度。在一些实施方式中，与在转变频率FT 506以下相比，频率响应518在转变频率FT 506以上显示更多的幅度变化(例如，对转变频率FT 506以下的频率应用更大的校正)。[0141]图5C示出根据一些实施方式的频率响应528。在一些实施方式中，频率响应528是均衡之前所测量的音频输出响应。在一些实施方式中，频率响应528是使用电子装置300的麦克风获得的，其中电子装置300位于房间或开放空间中的位置。在一些实施方式中，频率响应528仅包括在转变频率FT 506以上的频率范围内的幅度贡献。在一些实施方式中，根据确定频率响应528的幅度贡献仅高于转变频率FT 506，不对频率响应528应用均衡。[0142]图6A-图6D、图7A-图7E和图8A-图88F示出根据一些实施方式的图3A的电子装置15CN110663173A说　明　书13/27页300的定位和操作的示例。为了简化起见，在这些示例中，电子装置300由电子装置100(图1A)表示，但是，在其他实施方式中，电子装置300包括电子装置120(图1B)、电子装置202(图2)和/或其他电子装置。[0143]图6A示出房间600，包括位于桌子602上的电子装置100，其中电子装置100的扬声器102朝上。如图6A所示，电子装置100位于房间600的中心附近(例如，不靠近任何墙壁或天花板)，因此与图7和图8所示的定位相比，反射效果的影响较小。在一些实施方式中，(未示出)房间600包括多个数量和类型的电子装置，它们放置在房间600内的任何位置和/或方位。在一些实施方式中，(未示出)房间600是开放空间的子集。[0144]图6B示出根据一些实施方式的产生音频612的电子装置100的扬声器102。音频波从电子装置100的扬声器传播，包括沿向上(+z)方向616传播的声波614。在某些实施方式中，声音从桌子602反射回来。在某些情况下，因为在电子装置100与房间600的天花板之间的距离大，所以几乎没有声音或没有声音从天花板反射(例如，对于在房间中聆听的人来说，听不到多少)。在某些情况下，声波614到达房间600的天花板并从天花板反射。例如，基于音频的音量，在房间里聆听的人员可能注意到也可能不会注意到从天花板反射的波的音频贡献。在音频贡献显著的情况下，希望音频均衡，以最小化音频中产生的失真。[0145]图6C和6D示出根据一些实施方式声波从多个方向跑出电子装置100。图6C示出图6B的房间600的侧视图，图6D示出房间600的对应平面图。在一些实施方式中，当电子装置100产生音频输出612时，从电子装置100发射音频波，包括图6C所示沿向上(+z)方向616传播的声波614。在一些实施方式中，当电子装置100产生音频输出612时，沿同心的、向外的方向626(在x-y平面中)从电子装置100发射音频波624。[0146]图7A-7C示出根据一些实施方式的图3A的电子装置300的示例定位和操作。图7A示出将电子装置100放置在桌子602上的同一房间600。在图7A中，电子装置100沿着竖直方向，扬声器102朝向沙发并且靠近一个表面(例如，沙发)。在一些实施方式和实例中，每个邻近的表面在低频(例如，低于房间的转变频率的频率)处导致大约3dB的放大，音频均衡试图对其进行校正。图7B示出电子装置100输出音频712。音频波从电子装置100的扬声器102传播，包括沿向左(-x)方向716传

                    本文档为【基于房间特性自动均衡音频输出的方法和系统】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

基于房间特性自动均衡音频输出的方法和系统

你可能还喜欢