关闭

关闭

关闭

封号提示

内容

首页 [设计]多媒体计算机的声音信息处理

[设计]多媒体计算机的声音信息处理.doc

[设计]多媒体计算机的声音信息处理

刘宇栋 2018-08-10 评分 0 浏览量 0 0 0 0 暂无简介 简介 举报

简介:本文档为《[设计]多媒体计算机的声音信息处理doc》,可适用于工程科技领域,主题内容包含设计多媒体计算机的声音信息处理第四章多媒体计算机的声音信息处理数字化声音信息的获取一、声音多媒体计算机中由于增加了音乐、解说和一些有特殊效果的声音这符等。

设计多媒体计算机的声音信息处理第四章多媒体计算机的声音信息处理数字化声音信息的获取一、声音多媒体计算机中由于增加了音乐、解说和一些有特殊效果的声音这就使多媒体应用程序显得丰富多彩充满活力。声音(Sound)是文字、图形之外表达信息的另一种有效方式。从物理学角度来认识空气振动而被人们耳朵所感知就是声音。通常声音用一种连续的随时间变化的波形来表示该波形描述了空气的振动(图)图声音的波形表示从图中可以看出波形的最高点或最低点与基线(时间轴)之间的距离称为该波形的“振幅”。振幅表示声音的音量。波形中两个连续波峰间的距离称为“周期”波形的“频率”是秒钟内所出现的周期数目单位是赫兹(Hz)。声音按其频率的不同可分为次声、可听声和超声三种。次声的频率低于Hz它是一种人耳听不见的声音。或听声的频率在Hz之间这是人耳可感受的声波。超声的振动频率高于Hz也是人耳听不见的声波。多媒体计算机中处理的声音信息主要是指可听声所以也叫音频信息(Audio)。从应用的角度来说多媒体计算机中的声音可分为三类:一类是语言(语音)它的作用与文字信息一样输出的语言可作为解释、说明、叙述、回答之用输入的语言可做命令、参数或数据。第二类是音乐、音乐的播放可烘托气氛、强调应用程序的主题。第三类是效果声(SoundEfect)例如括风、下雨、打雷、爆炸等它们在特写的场合下起到文字、语言等无法代替的作用。多媒体计算机中发出的声音有两种来源。一是获取法即利用声音获取硬件将指定的声音源所发出的声音转换成数字方式并经过编码后保存下来输出时再进行解码和数模转换还原成为原来的波形。另一种是合成法计算机通过一种专门定义的语言去驱动一些预制的语言或音乐的合成器借助于合成器产生的数字声音信号还原成相应的语言或音乐。合成法的优点是数据量大大减少特别是音乐的合成技术上已很成熟这在下面第三节进行介绍。二、声音信息的数字化声音信息的计算机获取过程主要是进行数字化处理因为只有数字化以后声音信息才能像文字、图形信息那样进行存贮检索、编辑和各种处理。声音信息的数字的数字化过程通常如图所示。图声音信息的数字化采样指的是以固定的时间间隔对波形的值进行抽取。如果以Xa(t)表示声音的连续波形则采样后得到的是一个离散的序列X(n)。如果以T作为时间间隔(称为采样周期)则采样后得到的声音信号序列为:X(n),Xa(nt)n,序列中的每一个信号称为“样本”。采样后得到的样本其数值仍然是模拟量。采样过程最重要的参数是采样频率。采样频率越高声音保真度越好但要求的数据存贮量也就越大。理论研究表明采样频率为声音信号的最高频谱分量的两倍时即可不失真地还原了原始声音信号若超过此采样频率则就包含某些冗余信息若低于此频率则产生失真。实验表明使用KHz采样频率时人们讲话所产生的语言信号的处理已可以基本满足要求了。多媒体计算机在声音信号获取时采样频率通常可以有三种选择它们是KHzKHz和KHz。声音信息数字化的第二步处理是量化即把每一个样本值X(n)从模拟量转换成为数字量该数字量用n个二进位表示精度是有限的。n越大量化精度越高反之量化精度降低。若量化过程用Q表示量化后的样本用x(n)表示则量化过程可表示为:x(n),Q「X(n)」n,量化误差可以定义为:e(n),x(n)X(n)n,显然不论量化精度有多高量化过程必定会引入一定的误差这些误差是量化时数的截尾和舍入所引起的。由于量化误差的存在当数字化的声音还原成模拟量的波形输出时必然会产生一定的噪声这称为量化噪声。但是只要选择适当的量化精度量化噪声可以控制在人耳感觉不出的程度。多媒体计算机中声音的量化精度一般有两种:位和位。前者是将样本划分为等份后者则分为等份。任意一个特定的样本值经过量化后只能是(或)个不同结果中的某一个量化精度分别为或。计算机中的后有信息都是以二进制形式进行存贮、传输和处理的。经过采样和量化后所得到的数字化声音信息还必须以二进制形式并按照一定的数据格式进行表示这个过程称为“编码”。在不进行任何信息压缩时多媒体计算机中的每个样本值可以用位或位整数来表示前者为一个字节后者为两个字节。若需要进行信息的压缩则编码过程要复杂得多。这在本章第二节中再进行讨论。三、数字化声音的质量与存贮容量决定数字化声音的质量和存贮容量的因素有三个:采样频率、量化精度和记录的声道数目。声音通道(声道)的个数表明声音获取过程中只记录一个声波(单志道)还是记录两个波形(立体声)。立体声听起来要比单声道的声音丰满真实感更好但需要两倍的存贮空间。一般而言用获取方法所得到的数字化声音的信息量都很大。下面是计算音频信息文件所需存贮容量的公式(单位:字节):存贮容量,采样频率,样本量化精度,声道数目,声音持续时间(秒)例如一段分钟的双声道所需要的存贮容量见表所示。按照数字式激光唱盘的标准(CDDA标准也叫红皮书标准)其上所记录的数字化声音采样频率为KHz量化精度为位它具有很高的声音保真度。多媒体计算机一般都能播放CDDA唱盘以取得最好的效果。表分钟立体声所需的存贮空间使用CDDA声音虽然效果好但占用存贮空间很大且数据速率也高达KBs(单声道)或KBs(双声道)这就要求占用CDROM驱动器的全部能力即播放CDDA声音时夫法再从CD盘上读取其他数据。所以开发多媒体应用软件时获取数字化声音所使用的采样频率和量化精度可根据实际情况进行选择。当录音技术很好时KHz采样频率、位量化精度所获取的数字化声音播放时可达到调幅广播的质量。若采样频率降低到KHz则可用作为语言或低频为主的声音信息。多媒体计算机中所处理的数字化声音信息通常有多种不同的采样频率和量化精度可以选择以适应不同应用埸合的质量要求(参见表)表几种不同的数字化声音信息声音信息的压缩编码一、编码方法的分类数字化声音信息的编码方法在数字通信中有多种以下是这些方法的分类。图编码方法分类波形编码的做法中先对声音波形进行采样然后再进行量化、编码。为了减少声音信息的数据量往往还采用相应的压缩措施。多媒体计算机中的波形声音信息大多采用PCM和ADPC编码方法。声音编码的另一种做法是参数编码它是从声音信号中提特征参数然后在声音播放(还原)时根据这些参数重建声音信号。这类方法实现的编码器一般叫做声码器(Vocoder)它的压缩倍率很高但重建的声音质量很难满足高标准的要求。二、脉冲编码调制(PCM)脉冲编码调制简称脉码调制它已广泛应用于数字通信系统中。由于这种编码方法简单它不需要复杂的信号处理技术就可以实现瞬时的数据压缩与还原且信噪比高因此激光唱盘记录声音的红皮书标准(CDDA)就采用这种编码方法。多媒体计算机中的声音卡在都具有PCM编码解码的功能。PCM编码和解码的原理见图图PCM编码解码原理声音波形信号Xa(t)经采用门和反混迭滤波组成的采样处理后变成一系列离散的脉冲调幅信号X(n)。为了压缩编码数据率X(n)要进行变换。该变换实际上是一个非线性放大器它对小信号电平放大对大信号电平作适当的衰减。经过变换后的脉冲信号y(n)送入一个线性编码器其量化特性是均匀分级的但对X(n)信号则为非均匀量化。这样每一个脉冲用一组二进制代码来表示在CDDA标准中则为位代码。PCM解码过程则是上述过程的逆过程。为了提高声音信息的信噪比将X(n)变换为y(n)最有效的是对数变换即y(n),ln,X(n),这就使采样脉冲X(n)在经过均匀量化后其相对量化误差都比较相近。实际使用时为了达到更好的效果并不简单地使用对数函数而是采用下面两种近似对数函数:()μ律压缩(式)其中Xmax是X(n)的最大限幅值也叫过载点。μ是一个常数它往往取比较大的数值。()A律压缩(式),其中Xmax含义同律A也是一个常数。,,按照CCITT橙皮书G建议值为A值为。美国、日本等多采用律欧洲和中国采用A律国际通信中则一致采用A律。三、DPCM和ADPCM压缩编码为了降低采用PCM编码的数字化声音信息的数据量一种改进的方法是差分小于X(n)因此所需要的量化电平数就可以减少从而编码数据量得到压缩。DPCM的编码解码器原理框图如图所示。图PDCM的编码和解码过程图中的预测器p(z)是一个线性预测器它在n时刻的预测值是由其前N个样本的线性组合来得到的其关系为:(式)式中a为预测系数N为预测阶次。jDPCM的主要关系式如下:预测误差信号d(n),X(n)x(n)量化后的预测误差信号d(n),d(n)e(n)e(n)为量化误差解码后重建信号x(n),x(n)d(n),X(n)e(n)可见重建信号x(n)与原输入信号X(n)的差为预测误差信号的量化误差。很明显如果预测误差的量化误差小于X(n)直接量化时的误差功率那么DPCM系统就优于PCM。在DPCM系统中通常假设输入声音信号是平稳的由此而设计一个固定的预测器和一个固定差值量化器。预测器预测系数的确认可以使用均方误差为极小值的准则来解决这里不再赘述。在实际使用中输入声音信号远非平稳的此时DPCM的信噪比大大下降。解决这个问题的方法是使DPCM中加入自适应的方法使之构成自适应差分脉码调制(ADPCM)。ADPCM的方案有多种一种是带有固定量化器的自适应预测器一训是带有自适应量化器的固定预测器第三种是带有自适应量化器的自适应预测器。CCITT年G建议的ADPCM编码器原理如图所示。图ADPCM编码器原理从图中可以看出编码器的输入信号为PCM码c’(n)为了电路便于数字运算首先将非线性的PCM码转换为线性码X(n)然后与预测信号x(n)相减后得到预测误差信号d(n)d(n)经量化、编码后即产生ADPCM码C(n)输出。为了使量化器能适应各种不同统计特性的声音信号ADPCM要依据输入信号的性质自动改变自适应速度参数来控制量化器的量阶大小同时也控制自适应预测器的工作。自适应预测器采用阶零点预测和两阶极点预测。即(式)an(),bn(),其中和均为可根据输入信号性质加以自动调整的预测系数。ii由于ADPCM压缩编码方案信噪比高数据压缩倍率可达倍因此多媒体计算机所获取的数字化声音信息大都采用此种压缩方法。音乐的合成MIDI一、什么是MIDI多媒体计算机中生成音乐或声响效果的途径除了数字波形声音方法之外更常用的方法是MIDIMIDI的全文为MusicalInstrumentDigitalInterface可翻译为电子乐器数字接口。大家知道从数字式的电子乐器出现之后它有产品性能日趋完善对音乐界产生了革命性的影响也为计算机处理音乐(作曲、修改、记录、检索、播放)创造了极为有利的条件。MIDI声音与上一节所介绍的数字化波形声音完全不同它不是把音乐声音与上一节所介绍有数字化波形进行采样、量化和编码而是将电子乐器键盘的弹奏过程记录下来。例如按了哪一个键力有多大时间有多长等这实际上就是乐谱的一种数字式描述这种描述称之为MIDI消息(MIDIMessage)。当需要再次播放这支乐曲时只需要从相应的MIDI文件中读出MIDI消息生成所需要的乐器声音波形经放大后由扬声器输出。图是多媒体计算机中MIDI声音的处理过程。与波形声音信息相比较MIDI声音有许多优点。最重要的是它对存贮容量的需求比波形声音小得多。半小时的立体声音乐使用CDDA格式的波形存贮时需要MB存贮量而用MIDI记录时则只要约KB两者相差多倍就是与采用ADPCM压缩编码的波形声音相比MIDI声音的数据量也要小两个数量级以上。图多媒体计算机中MIDI声音的处理过程另一个优点是表现在声音的配音方面。利用MIDI技术当多媒体PC机播放波形声音文件(例如一段解说词)时可以同时在Windows下播放用MIDI文件记录下来的音乐这就为解说词实现了配乐而两个波形声音文件是无法同时播放的。与波形声音相比MIDI声音在编辑修改方面也是十分方便灵活的。例如可任意修改曲子的速度、音调也可改换不同的乐器等这些在有关软件中再作介绍。MIDI的不足之处主要是合成后输出的声音质量依赖于MIDI硬件。多媒体PC机配置的声音卡其合成器仅适于重现打击乐或一些电子乐器的声音。为了得到与手风琴、小提琴乐器真正相同的声音还需要再添置MIDI声音混合器或者外接一些高质量有MIDI电子乐器。二、MIDI设备与规范MIDI是为了把电子乐器与计算机连接起来而制定的一个规范它在年就由若干电子乐器制造厂提出协议年正式提交给MIDI制造厂协会现已成为数字式音乐的一种国际标准。MIDI规范规定每一种MIDI装置通常由一个接收器和一个发送器组成某些MIDI装置也许只有接收器或发送器。接收器可以接收MIDI格式的消息并执行MIDI命令。发送器则生成符合MIDI格式的消息并向外发送。接收器与发送器可通过一种通用的异步收发器互相连接数据传送速率为位秒每个数据字节的前后各有一起始位和停止位因此实际有效数据传输速率为字节秒。MIDI设备有三种端口:MIDIInMIDIOut和MIDIThu。每一个MIDI设备至少有一个端口可以三种都有。MIDIIn(输入口)用来接收其它MIDI设备发送来的消息。MIDIOut(输出口)用来发送本设备生成的原始MIDI消息。MIDIThru(传送口)则能向其它相连的MIDI设备传播从MIDIIn端口接收到的消息。这种设计允许连接若干个MIDI设备同时工作。MIDI规范规定MIDI键盘共有个键它比标准的键钢琴多个低音符和个高音符编号为。MIDI消息可以描述每个音符的信息包括对应的键号、按键的持续时间、音量和力度(击键时键到达它最低位置的速度)。MIDI规范还规定MIDI接收器有个声道(channel)它们可以同时向声音合成器传送路不同的声音就好象同时指挥个演员一起进行演奏一样。MIDI消息吧指出什么音符发给哪个声道并对各声道进行各种控制。声道的编号为它们在MIDI中的编码为声道也称为基本声道。每个声道在逻辑上对应着一个合成器该合成器可以产生种不同乐器的声音不同乐器声音称为合成器的不同“程序”。为某个声道选择某种乐器就必须预先为其设定对应的程序号。但MIDI没有统一规定哪种乐器使用哪一个程序号因此同一MIDI文件使用不同的合成器播放时可能效果不完全相同。MIDI文件中包含了一连串的MIDI消息。每一个MIDI消息由若干个字节组成通常第一个字节为状态字节其后则为一个或两个数据字节状态字节的特征是最高位为“”它用来指出紧随其后的数据字节的用途的含义。数据字节的特征是最高位为“”它们是一条MIDI消息的信息内容。例如当演奏员按下键盘中间的一个“C”键时MIDI键盘就会发送一个三字节组成的消息:C其中是状态字节它表示一个音符开始且向号声道传送。C表示击键的位置(哪一个键)。表示击键的速度共分成FF共种不同速度是中等速度。然后当按下的键一松开MIDI键盘立即又发出一个三字节组成的消息:C其中前两个字节含义与前面相同第三个字节表示速度为即这个键已中止。当合成器收到第一个消息时即开始以指定乐器声音发出规定的音符声而当收到第二个信息时合成器立即停止发声。合成器可以以单音方式发声也可以是复音方式(即能同时发出几个音符)因此它能演奏和声。每个声道选择什么工作模式则需使用“选择声道模式”消息来进行控制。三、多媒体计算机中的MIDI多媒体PC机要求声音卡上包含一个MIDI合成器和一个MIDI输入输出端口。声音合成器分成两类:基本型和扩展型它们能演奏的乐器数目及复音数有所区别参见表。多媒体PC机要求至少提供一个基本型的合成器。Windows规定MIDI中的号声道用于基本型合成器其中旋律乐器要分配给、、号声道所有打击乐器均分配给号声道。扩展型合成器则使用声道其中旋律乐器可分配给号声道打击乐器均分给声道。表基本型合成器和扩展型合成器的性能由于MIDI规范中对每个声道相应和逻辑合成器的乐器(种)的编号并无标准且不同的多媒体机器所配置和MIDI合成器的类型及数目也各不相同。为了使在一台机器上产生的MIDI文件在另一台多媒体机器上能以原来的声音的效果播放出来Wibdows有一个实用程序“MIDIMapper”(MIDI映射程序)它负责把MIDI消息中的声道号(称为逻辑声道)映射为实际的物理声道号它也为每个物理声道的乐器编号作出定义也可以为MIDI键盘作出定义(主要针对打击乐器)。所有这些映射表操作员都可以重新修改的定义以保证MIDI文件不经修改便可在不同系统取得相同的播放效果。创作(生成)一个MIDI文件并非一件很容易的事。首先需要为多媒体PC机配置一个MIDI键盘然后请作曲家从键盘上逐步完成其作品的旋律部分、低音和声部分及配打击乐器等不断地演奏、播放并编辑作品的每一部分直到满意为止。多媒体计算机中提供有一个MIDI编辑程序如Windows中的“Sequencer”程序Wearnes多媒体PC机中的“MIDIOrchestrator”程序它们可以对已有的作品(MIDI文件)进行编辑修改例如改变曲子的速度改变各个声道的音量大小及所使用的乐器对声道进行变调处理。SoundBlaster声音卡一声卡的组成原理图声音卡的组成声音卡用于处理音频信息它可以把话筒、唱机、电子乐器等输入的声音信息进行模数转换、压缩处理也可以把经过计算机处理的数字化的声音信通过还原(解压)、数模转换后用扬声器播放出来或者用录音记录下来。多媒体计算机中所处理的数字化声音信息通常有多种不同的采样频率和量化精度可以选择以适应不同应用埸合的质量要求。尽管目前市场上有各种各样的声音卡但大多都声称与新加坡创新公司(Creative)的声霸卡(SoundBlaster“声霸卡”为其注册商标)兼容。事实上CreativeSoundBlaster系列声卡一直是PC机声音卡的世界标准其销量曾经达到占全球声音卡市场,以上的份额一度在世界声音卡市场上起着主导作用。CreativeSoundBlaster系列声卡在中国市场主要有下列几种版本:SoundBlaster(位声音卡)、SoundBlasterPro(位声音卡)、SoundBlaster(位声音卡)、SoundBlasterWithAdvancedSingnalProcessor(位带高级信号处理芯片)以及用于支持不同的CDROM接口的SoundBlaster或SoundBlasterwithAdvancedSignalProcessor的同版本。主要有SoundBlasterMultiCD和SoundBlasterSCSI等。各种版本均各下兼容完全符合或高于MPCLEVEL的要求其中SBPro是MPCLEVEL标准的样板卡SoundBlaster达到或超过了MPCLEVEL标准。下面介绍SB位声音卡。该卡是位声霸卡中推出时间最早而较成熟的产品能完全达到CD激光唱片音质的立体声效果支持多种压缩规范具有一种CDROM驱动器接口(Creative)。二、SoundBlaster声音卡主要技术特性音乐合成器:使用个操作器的增强型FMOPL音乐合成器与以前的SB或AdlibFM合成器完全兼容。提供操作器路复音或操作器路复音。立体声数字语音通道:可设定位或位数字立体声或单声道模式可编程设定的采样频率范围从KHz到KHz共级线性变化支持ALaw、MULaw、CTADPCM和IMADPCM等压缩规范中断信号可用位或位DMA通道可选用滤波器进行数字录音和回放。具有数字模拟混合器:混音器的声源可以是:数字声音、CD音频、MIDI信号、线路输入、话筒及PC机的喇叭可选择输入一个声源或将几个不同声源进行混合录音。具有软件音量调整功能:可控制主音量、数字语音、CD音频、来自MIDI的信号、线路输入、话筒、PC喇叭等PC机的喇叭音量为每级dB共为级其他声源音量为每级dB共分为个级别。具有音调调节功能高音低音控制范围从dB到dB按每级dB分为个级别完全具有软件控制的淡入、淡出及全境效果。立体声放大功能:每一声道具有Ω、W的立体声输出功率话筒音量AGC(自动增益控制)功能具有线路输出可接外部的音频输出放大器。MIDI接口:可连接外接的MIDI设备具有与SB或MPUUART模式相兼容的能力。CDROM接口:只能支持Creative的CDROM驱动器这是本卡的一个弱点。该卡要求运行环境为:aIBMSXDX或,兼容机。bMB内存。cEGA、VGA显示卡(推荐用VGA卡)。dMB的硬盘空间用于存放软件。eWindows用于Windows环境下的应用软件。三、SoundBlaster声音卡应用软件介绍()CreativeWaveStudio:该软件用于录制、编辑和播放波形文件与SBPRO中的Wavestudio类似不同的是它可采用两种不同的采样位数对来自录音机的信号用位采样来处理对CD激光唱机的信号用位采样来处理而SBPro只能用位采样进行处理。该软件编辑文件时所使用的特技效果也有所增多包括:往反放音、回声倒放、轻拍、插入静音、静噪、淡入淡出、两通道交叉放音、从左到右渐近、从右到左渐近、格式改变、修改频率、放大音量等等。()CreativeEnsmbleAV:这是一个HiFi立体声音响系统通过遥控器来控制CD机、MIDI合成器及Wave合成器。()CreativeSound'LE:这个软件用来播放和记录波形格式文件(,WAV格式)。它有六个功能按钮:放音、暂停、快进、快退、停止和录音。()CreativeMixer:这是一个基于WIN的混音控制器能够对来自不同声源的声音进行混合和操作如控制音量、音调以及从其他WIN应用软件中获取音频。()CreativeMosac:这是一个移动方块的游戏。在一个的方格中有个可移动方块分别标有数字(也可改选为图形方块即将一幅图形平均分成块)每次启动后随机摆放要求以最少步和最短时间将它们按顺序摆好有如中国的“华容道”方块游戏同时可以打开背景音乐或每走一步的滑支声。该游戏可以检验你的计划分析能力和灵敏度。

用户评论(0)

0/200

精彩专题

上传我的资料

每篇奖励 +1积分

资料评分:

/17
0下载券 下载 加入VIP, 送下载券

意见
反馈

立即扫码关注

爱问共享资料微信公众号

返回
顶部

举报
资料