首页 音频编解码技术介绍

音频编解码技术介绍

举报
开通vip

音频编解码技术介绍null音频编解码技术音频编解码技术培训目标培训目标了解音频编解码的目的 熟悉音频编解码的各种标准 知道音频编解码的技术构成 关注音频编解码技术的发展语音编解码概述语音编解码概述 (a) 波形编码器; (b) 声码器; (c) 混合编码器语音编码器类型语音编解码概述语音编解码概述 (a) 波形编码器 不利用生成语音信号的任何知识来产生一种重构信号,波形编码器会尽可能重构出包括背景噪音在内的模拟波形。由于波形编码器作用于所有输入信号,因此会产生高质量的样值。特点是复杂度低,在数据速率16kb/s...

音频编解码技术介绍
null音频编解码技术音频编解码技术培训目标培训目标了解音频编解码的目的 熟悉音频编解码的各种标准 知道音频编解码的技术构成 关注音频编解码技术的发展语音编解码概述语音编解码概述 (a) 波形编码器; (b) 声码器; (c) 混合编码器语音编码器类型语音编解码概述语音编解码概述 (a) 波形编码器 不利用生成语音信号的任何知识来产生一种重构信号,波形编码器会尽可能重构出包括背景噪音在内的模拟波形。由于波形编码器作用于所有输入信号,因此会产生高质量的样值。特点是复杂度低,在数据速率16kb/s以上时,质量很好,例如, ITU-T G.711规范(PCM)用的比特率为64kbps。 Time domain approach: PCM (pulse code modulation), DPCM, ADPCM Frequency domain approach: SBC(sub-band coding), ATC(adaptive transform coding)语音编码器类型语音编解码概述语音编解码概述 (b) 声码器 声码器(vocoder)也称为音源编译码器,它试图在话音波形信号中提取生成话音的参数,通过这些参数和话音生成模型重构出语音。线性预测编码(LPC)用来获取一时变数字滤波器的参数。这个滤波器用来模拟说话人的声道输出。 声码器 (vecoder) 时变滤波器 (time-varying filter) 命令 基本激励 它的音质很低,增加数据率对提高音质基本无用, 广泛用于军事保密通讯. 语音编码器类型语音编解码概述语音编解码概述 试图填补波形编码和音源编码的间隔: waveform coding不能解决低于16kb/s下的音质问题, source coding可压缩到2.4kb/s或更低,但音质不自然。 时域合成-分析编码器(analysis-by-synthesis, ABS)。它和音源编码器的主要区别: 不使用2个状态(有声/无声)的模型来寻找滤波器的输入激励信号,而是要寻找这样一种激励信号,使得这种信号产生的波形尽可能接近原始话音波形.语音编码器类型(1)语音编解码概述语音编解码概述(c) 混合编码器 目前常用的语音编码器是混合编码器,它融合了波形编码器和声码器的长处。它的另一特点是它工作在非常低的比特率(4~16 kbps)。混合编码器采用合成分析(AbS)技术。 (c.1)线性预测合成分析编码器: 前向自适应LPAS编码器:8 kbps G.729编码器和 6.3 kbps 与5.3 kbps G.723.1编码器 后向自适应LPAS编码:16 kbps G.728低时延码激 励线性预测 (c.2)参数语音编码器:2.4 kbps 混合激励线性预测编码语音编码器类型(2)语音编解码概述语音编解码概述语音编码器的主要功能就是把用户语音的PCM(脉冲编码调制)样值编码成少量的比特(帧)。这种方法使得语音在链路产生误码、网络抖动和突发传输时具有鲁棒性(Robustness)。在接收端,语音帧先被解码为PCM语音样值,然后再转换成语音波形。语音编解码目的语音编解码概述语音编解码概述 帧大小: 帧的大小 关于同志近三年现实表现材料材料类招标技术评分表图表与交易pdf视力表打印pdf用图表说话 pdf 示语音流量的时间长度,也称为帧时延。帧是语音信号的分立部件,且每帧是根据语音样点更新的。本章所介绍的编解码器都是一次处理一帧。每帧信息放在各语音分组中,并传送给接收端。 处理时延: 它表示在编解码器中对一帧语音做编码算法处理时所需的时间。它通常简单的计入帧时延。处理时延也称为算法时延。 前视时延: 编码器为了对当前帧的编码提供帮助而检查下一帧的一定长度,此长度就称为前视时延。前视的想法是为了利用相邻语音帧之间的密切相关性。 帧长度: 这个值表示经编码处理后的字节数(不包括帧头)。语音编码器评价语音编解码概述语音编解码概述语音比特率: 当编解码器的输入是标准脉冲编码调制的语音码流(比特率为64 kbit/s)时,编解码器的输出速率。 DSP MIPS: 此值是指支持特定编码器的D S P处理器的最低速度。 RAM需求: 它描述了支持特定的编码过程所需要RAM的大小。 编码器工作所需的时间: 是指编码器的缓存及处理时间,称为单向系统时延。其值=帧大小+ 处理时延+ 前视时延。显然,解码时延也非常重要。实际上,解码时延大约是编码时延的一半。 语音编码器评价(续)音频编解码标准音频编解码标准语音编解码标准 其它音频编解码标准 DTMF Transmitters and Receivers标准 回声消除相关标准 音频编解码标准音频编解码标准语音编解码标准 其它音频编解码标准 DTMF Transmitters and Receivers标准 回声消除相关标准 音频编解码标准 语音编解码标准音频编解码标准 语音编解码标准 ITU-T Recommendation G.711 ITU-T Recommendation G.723.1 & Annex A ITU-T Recommendation G.728 & Annex G ITU-T Recommendation G.729 & Annex A B 音频编解码标准音频编解码标准语音编解码标准参数对照 音频编解码标准音频编解码标准音频编解码标准各参数对照 nullPCM(Pulse Code Modulation)模拟信号低通防失真 滤波器波形 编码器PCM样本量化器采样: 均匀采样 量化: 均匀量化,非均匀量化(大信号采用大间隔,小信号小间隔) 音频编码技术PCM在通信中主要用于时分多路复用和频分多路复用.语音压缩—ADPCM语音压缩—ADPCM自适应差分脉码调制 波形编码 方案 气瓶 现场处置方案 .pdf气瓶 现场处置方案 .doc见习基地管理方案.doc关于群访事件的化解方案建筑工地扬尘治理专项方案下载 自适应:自动压扩 差分:仅对样本之间的变化编码 每个样本的速率与比特: 32 Kbps = 8 Kbps x 4 bits/sample 24 Kbps = 8 Kbps x 3 bits/sample 16 Kbps = 8 Kbps x 2 bits/sampleCELP: 码激励线性预估CELP: 码激励线性预估进入编码器的信号从8比特PCM转换成16比特线性PCM样本 编码器使用电码本。电码本用反馈信息对语音波形不断地分析,“学习”和预估 白噪声生成器“激励”编码器 数字结果(参数)被传送到远端码器进行语音波形的合成和生成CS-ACELP: 共轭结构代数码激励线性预估CS-ACELP: 共轭结构代数码激励线性预估使用 DSP 80个16比特线性PCM数据样本帧(10M)进入10个8比特码字 增加一个“向前”的5毫秒 噪音降低和音调合成过滤增加到处理要求中 8 Kbps 的数据速率LD-CELP: 低延迟码激励线性预估LD-CELP: 低延迟码激励线性预估与CSA-CELP相似,但 LD- CELP使用较小的电码本,并以16 Kbps 操作使延迟减小到2-5毫秒(无“向前”) 从8-kHz输入语音的每五个样本中产生10比特的码字 四个10比特的码字被称为一个“子帧”,它大约需要2.5毫秒进行编码 两个“子帧”结合到一个5毫秒的码组中进行传输nullDM and ADM (Adaptive Delta Modulation) SBC(Sub-Band Coding) and SB-ADPCM LPC (Linear Predictive Coding)音频编码技术其它语音编码类型音频编解码标准音频编解码标准语音编解码标准 其它音频编解码标准 DTMF Transmitters and Receivers标准 回声消除相关标准 null 当前国际上主流的新一代视音频编解码软件技术标准是国际运动图像专家组于1999年公布的MPEG-4技术标准,将逐渐取代现有的MPEG-1(VCD)、MPEG-2(DVD)标准。MPEG-4主要为了实现在有线、移动网络上传输互动的视音频内容,目前世界主要公司的编解码软件都支持MPEG-4标准。虽然微软等几个公司在发展自己的技术和标准,但都脱不开MPEG-4标准底层的基础专利技术。MPEG-4等编解码技术的革命,极大地扩展了数字多媒体的应用市场。 音频编码技术音频编解码标准 其它音频编解码标准nullMPEG中音频编码标准(1) 编码器的输入和解码器的输出与现存的PCM标准兼容 ISO/IEC 11172-3(MPEG1音频)的采样率为32kHz,44.1kHz和48kHz 。 根据应用需要,可以使用不同层次的编码系统。 LayerⅠ 包括将数字音频变成32个子带的基本映射。将数据格式化成块的固定分段。决定自适应位分配的心理声学模型。利用块压扩和格式化的量化器。理论上,层Ⅰ编码/解码的最少延时约为19ms。 LayerⅡ 提供了为分配,缩放因子和抽样的附加编码。使用了不同的帧格式。这层理论上的最小编码/解码延时约为35ms。 LayerⅢ 采用混合带通滤波器来提高频率分辨率。它增加了差值量化(非均匀)、自适应分段和量化值的熵编码。这层理论上的最小编码/解码延时为59ms。联合立体声编码作为一个附加特征,能够加入到任何一层中。 音频编码技术音频编解码标准 其它音频编解码标准null杜比数字音频技术 (1) AC-3编码和解码 AC-3音频编码标准的起源是DOLBY AC-1。AC-1应用的编码技术是自适应增量调制(ADM),它把20kHz的宽带立体声音频信号编码成512kbps的数据流。AC-1曾在电视和调频广播上得到广泛应用。1990年DOLBY实验室推出了立体声编码标准AC-2,它采用类似MDCT的重叠窗口的快速傅立叶变换(FFT)编码技术,其数据率在256kbps以下。AC-2被应用在PC声卡和综合业务数字网等方面。 1992年DOLBY实验室在AC-2的基础上,有开发了DOLBY AC-3的数字音频编码技术。AC-3提供了五个声道的从20Hz的全通带频响,即正前方的左(L)、中(C)和右(R),后边的两个独立的环绕声通道左后(LS)和右后(RS)。AC-3同时还提供了一个100Hz以下的超低音声道供用户选用,以弥补低音之不足。因为此声道仅为辅助而已,故定为0.1声道。所以AC-3被称为5.1声道。AC-3将这6个声道进行数字编码,并将它们压缩成一个通道,而它的比特率仅是320kbps。 音频编码技术音频编解码标准 其它音频编解码标准null杜比数字音频技术 (2) 杜比 E是一种专业音频编码技术,用于辅助广播和其它一些两声道设备传输多声道的音频信息。杜比E可以通过一对AES/EBU或者一对数字VTR音轨,给后期制作和发行提供多达8个声道的广播级质量的音频信息。另外,杜比E的优点还在于经过它编码的信息可以被编辑、解码、编码再解码,经过多次编解码转换而没有可察觉的音质降低。 MLP Lossless是一个真正的“无损”编码系统,DVD-Audio 中采用的压缩技术,可对PCM数据进行完美地复制,不同于“有损”的感性编码的杜比数字技术。MLP Lossless有效地将磁盘空间扩充了一倍,而没有影响高解析度的PCM音质,从而使DVD-Audio 光盘可以同时携带同一节目的立体声和多声道版本。所有DVD-Audio播放机必须具备MLP Lossless解码功能。 音频编码技术音频编解码标准 其它音频编解码标准null杜比数字音频技术 (3) 高级音频编码 (AAC)是一种高质量感性音频编码技术,应用于广播和网络音乐下载。AAC的编码效率优于MP3,以更低的比特率提供更高质量的音频信号。这项技术是由四个工业界的领导者(AT&T,杜比实验室,Fraunhofer IIS以及索尼公司)共同开发,将其标准化为一个ISO/IEC的规范。作为MP3的继任者,AAC现在已经获得了越来越多软硬件生产商的支持。 音频编码技术音频编解码标准 其它音频编解码标准音频编解码技术音频编解码技术 回声抵消EC 混音 背景噪声抑制ANS 静音压缩 自动增益控制AGC 唇音同步 包丢失隐藏PLC 音频编解码技术音频编解码技术混音  混音就是把两个以上的声音(文件形式或码流形式)混合为一个。目前,混音主要有硬件合成和软件叠加这两种方法。为了防止混音后的溢出问题,一般采用的算法是累加取平均值,这种方法会产生声强失真现象。加权叠加的算法可以有效解决这个问题,加权系数的优化成为这个算法的关键。 在多方会议时,混音还有一个策略的问题。 音频编解码技术音频编解码技术回声消除 AEC(adaptive echo canceller)是对扬声器信号与由它产生的多路径回声的相关性为基础,建立远端信号的语音模型,利用它对回声进行估计,并不断地修改滤波器的系数,使得估计值更加逼近真实的回声。     然后,将回声估计值从话筒的输入信号中减去,从而达到消除回声的目的,AEC还将话筒的输入与扬声器过去的值相比较,从而消除延长延迟的多次反射的声学回声。     根椐存储器存放的过去的扬声器的输出值的多少,AEC可以消除各种延迟的回声 。音频编解码技术音频编解码技术回声消除回声产生的因素 1.混杂传输 2.电话 3.路由器 4.服务质量QoS音频编解码技术音频编解码技术背景噪声抑制 背景噪音抑制的英文缩写为ANS(Automatic Noise Suppression)。 ANS可探测出背景固定频率的杂音并消除背景噪音,例如:风扇、空调声自动滤除。呈现出与会者清晰的声音。 音频编解码技术音频编解码技术静音压缩 它利用了在总会话时间中静音时间占了大约50%这一事实。其基本思路是在静音期间减少传送的比特数,从而节省了所需传输的总比特数。在电话网中,多年来对模拟语音信号都是用时间分配语音插值(TASI, Time-Assigned Speech Interpolation)方法进行处理。这一技术也就是将其他语音信号或者数据信号放置在谈话的静音期间内,从而为多信道链路提供附加容量。现今, TASI已被运用于数字信号中并被赋予新名称—其中的一个例子就是时分多址(TDMA, Time Division Multiple Access)。简要地讲,TDMA是将通常的信号划分成很小的、数字化的片段(slots即时隙)。这些时隙和其他时隙一起在一个信道中进行时分复用。音频编解码技术音频编解码技术静音压缩技术的几个概念VAD: Voice Activity Detection SID : Silence Insertion Descriptor DTX: Discontinuous Transmission CNG: Comfort Noise Generator nullVoice “Spurt” SilencePink NoiseTimeVoice Activity (Power Level) SID BufferSIDHang TimerNo Voice Traffic SentB/W Saved- 54 dbm- 31 dbmVoice “Spurt” 音频编解码技术静音压缩之语音活动识别音频编解码技术音频编解码技术自动增益控制AGC AGC可以自动调麦克风的收音量,使与会者收到一定的音量水平,不会因发言者与麦克风的距离改变时,声音有忽大忽小声的缺点。 AGC可分为模拟AGC和数字AGC电路。AGC环路可以放在模拟与数字电路之间,增益控制算法在数字部分来实现,合适的增益设置反馈给模拟可变增益放大器(VGA)。AGC电路的实现有前馈、反馈和混合环路等三种,分别如图1、2、3所示。 音频编解码技术音频编解码技术自动增益控制AGC音频编解码技术音频编解码技术唇音同步 唇音同步是指语音和画面播放的时间差小于一定范围。它实际上是一个牵涉多种技术的综合问题,包括编解码时延,网络QOS等等。这里只针对关键的一个因素进行阐述:   Internet是基于分组交换的传输技术,因此会出现语音包不会等时到达目的地的现象,表现在语音不连贯。这就需要先对语音包进行排队,经过动态调整后使语音稳定输出。一般采用jitter buffer等技术,使语音流畅清晰。 音频编解码技术音频编解码技术包丢失隐藏(PLC) 包丢失隐藏(PLC)算法也被称为帧消除隐藏算法,它隐藏了音频系统的传输包丢失现象。很多基于CELP算法的语音编码器都把PLC算法写入它们的算法中。 ●PLC的目标:是产生一个合成的语音信号以替代在接收的码流中丢失(消除)的数据。理想情况下,合成的信号会有和丢失信号同样的音质和频谱特性,并且不会产生不自然的伪音。 ● PLC算法的依据:由于语音信号通常是局部静止的,所以可以利用以前的信号来产生对丢失语音段合理近似。 ● PLC应用条件:丢失的包不是很长;丢失的包不发生在快速变化的区域内。在满足 PLC应用条件的前提下,包丢失可以完全被隐藏。音频编解码技术音频编解码技术包丢失隐藏PLC(图) 音频编解码标准音频编解码标准语音编解码标准 其它音频编解码标准 DTMF Transmitters and Receivers标准 回声消除相关标准 音频编解码标准音频编解码标准DTMF的检测和产生音频编解码标准 DTMF Transmitters and Receivers标准音频编解码标准 DTMF Transmitters and Receivers标准 ITU-T Recommendation Q.23 & Q.24 ETSI ES 201 235-1,2,3 音频编解码标准音频编解码标准语音编解码标准 其它音频编解码标准 DTMF Transmitters and Receivers标准 回声抵消相关标准 音频编解码标准 回声消除相关标准音频编解码标准 回声消除相关标准ITU-T Recommendation G.167:适用于通信终端设备上的声学回声消除 ITU-T Recommendation G.165 ITU-T Recommendation G.168-DIGITAL NETWORK ECHO CANCELLERS音频编解码技术的发展 编解码器的发展趋势音频编解码技术的发展 编解码器的发展趋势可分级的码率和编码质量 编解码效率 编解码复杂度音频编解码技术的发展音频编解码技术的发展PCM编码方式所产生的数据量太大,存储和传输都既不方便也不经济因此需要开发一种新的编码方式,它应该使用较少的数据量,而又不会导致音质的主观听感有明显的下降。这种编码方式被称为“感知型编码(Perceptual Coding)”。感知型编码技术以心理声学原理为基础,只记录那些能被人的听觉所感知的声音信号,从而达到减少数据量的同时不损害实际听感的目的。 它利用了这样一条心理声学原理:较强的声音信号可以掩蔽临近频段中较弱的信号。换言之,如果在某一频段中出现了一个较强的信号,那么该频段中所有低于某一门槛值的信号都将被强信号掩蔽掉,成为人耳不可闻的信号。滤除该弱信号将不会对音质产生不良影响,而且能减少编码后的数据量,所以可以把它们作为噪声信号来对待。 感知型编码(Perceptual Coding)音频编解码技术的发展音频编解码技术的发展PCM编码方式所产生的数据量太大,存储和传输都既不方便也不经济因此需要开发一种新的编码方式,它应该使用较少的数据量,而又不会导致音质的主观听感有明显的下降。这种编码方式被称为“感知型编码(Perceptual Coding)”。感知型编码技术以心理声学原理为基础,只记录那些能被人的听觉所感知的声音信号,从而达到减少数据量的同时不损害实际听感的目的。 它利用了这样一条心理声学原理:较强的声音信号可以掩蔽临近频段中较弱的信号。换言之,如果在某一频段中出现了一个较强的信号,那么该频段中所有低于某一门槛值的信号都将被强信号掩蔽掉,成为人耳不可闻的信号。滤除该弱信号将不会对音质产生不良影响,而且能减少编码后的数据量,所以可以把它们作为噪声信号来对待。 感知型编码(Perceptual Coding)音频编解码技术的发展 编解码器的发展新方向Structured Audio结构化音频这个名字是与计算机上的数字化音频相区别的。传统的数字化信息编码方式无法让人们从编码数据中分析出什么东西。必须以人的本身去感知解码后的媒体信息。而结构化音频的设计目标就是要弥补传统编码方式的不足,在提供压缩编码的同时,可以直接从编码数据中获得其表征意义。这给未来的媒体信息检索等新应用提供了无尽的方便。 我们关注结构化音频,是因为结构化音频最重要的地方就是指明了以后媒体信息编码的基本方向:基于事物对象,而不是基于样本数据。所谓基于对象的媒体,也就是通过标准的描述语言去描述信息。MPEG-4是第一个包含基于对象的媒体信息压缩和存储方式的标准。在2001年7月份推出的MPEG-7,基于对象的编码方式将会成为标准方式。相信在将来,所有的媒体信息编码都是基于面向对象来编码的。 音频编解码技术的发展 编解码器的发展新方向音频编解码技术的发展音频编解码技术的发展根据国标委的公开规划,2005年将是中国标准化建设大发展的一年,音频国标赫然在列。与其他领域致力于摆脱洋巨头专利重负一样,国内各企业、机构均在紧锣密鼓地开发自己的音频编解码系统。其中由中科院牵头,国家信产部科技司批准成立,拥有100多家音频相关企业机构成员的AVS标准组(数字音视频编解码技术标准工作组)最为知名。与高清碟机、数码相机、数字电视地面接收标准方案出台过程艰难相似,掌控标准主导权的野心和巨大利益同样令音频国标的争夺不断升级,结果迟迟难定。我国自主标准的建立
本文档为【音频编解码技术介绍】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_108155
暂无简介~
格式:ppt
大小:960KB
软件:PowerPoint
页数:0
分类:互联网
上传时间:2012-12-14
浏览量:38