【word】无线显示适配器帧内预测设计与FPGA实现

【word】无线显示适配器帧内预测设计与FPGA实现【word】无线显示适配器帧内预测设计与FPGA实现无线显示适配器帧内预测设计与FPGA实现第26卷第1期 2011年2月北京信息科技大学 JournalofBeijingInformationScienceandTechnologyUniversity V01.26No.1 Feb.2011 文章编号:1674—6864(2011)O1—0084—05 无线显示适配器帧内预测设计与FPGA实现王燕,杨大利,侯凌燕 (北京信息科技大学计算机学院,北京100192) 摘要:针对无线...

【word】无线显示适配器帧内预测设计与FPGA实现无线显示适配器帧内预测设计与FPGA实现第26卷第1期 2011年2月北京信息科技大学 JournalofBeijingInformationScienceandTechnologyUniversity V01.26No.1 Feb.2011 文章编号:1674—6864(2011)O1—0084—05 无线显示适配器帧内预测设计与FPGA实现王燕,杨大利,侯凌燕 (北京信息科技大学计算机学院,北京100192) 摘要:针对无线显示适配器实时处理和低成本的设计需求,对帧内压缩部分采用新一代视频压缩标准 H.264/AVC的帧内预测技术.通过分析帧内预测的所有方式,利用它们计算上的相似性,设计了公共的处理单元PE,并利用16个PE单元并行处理,1个时钟周期可预测出l6 个像素值,该设计结构使系统处理速度得到很大的提高.实验结果表明,在60MHz的频率下,该结构可实时编码1280×720(4:2:0)@30fps视频序列,且资源消耗相对较少,适用于无线显示适配器的实现. 关键词:帧内预测;并行;无线显示适配器中图分类号:TN919.81文献标志码:A DesignandFPGArealizationofintraframeprediction forwirelessdisplayadapter WANGYan,YANGDa—li,HOULing-yan (SchoolofComputerScience,BeijingInformationScienceandTechnologyUniversity,BeOing100192,China) Abstract:Inordertomeetthereal—timeprocessingandthelOWcostrequire mentsonwirelessdis- playadapter,anewintraframepredictiontechnologyinH.264/AVCisusedfortheintraframecompres— sion.Accordingtotheanalysisofalltheintraframepredictionmodes,thesimilarityofcalculationisused todesign16PEunitsinparallelprocessinginwhich16pixelscanbepredictedinonecycle.Thisstruc- tureincreasesthespeedofthesystem.Theexperimentshowsthattheworkingfrequenciesofthestructure cancode1280x720@3Ofpsvideosequencesunder60MHz,andresourceisconsumedlessrelatively. Thestructurecanbeusedinwirelessdisplayadaptercompatibly. Keywords:intraframeprediction;parallel;wirelessdisplayadapter O引言无线显示适配器可以实现显示器与主机的分离,摆脱线缆的束缚,满足人们工作便捷性的要求, 可应用于办公场所,军事,医疗和工业监控等方面. 由于无线显示适配器基于无线传输技术,为了适应其传输带宽低等的制约,必须将大规模的数据信息进行压缩,以满足实时传输的要求,所以必须采用视频压缩技术.视频压缩的关键技术包括帧内预测, 帧间预测和码率控制,本文研究的是帧内压缩部分. 当今比较有影响力的静态图像压缩标准有JPEG, JPEG2000和H.264/AVC.从编码性能来看, JPEG2000与H.264/AVC相当,远高于JPEG标准; 从编码复杂度来说,三者的性能比约为1:6:6,解码复杂度比约为1:10:2,可见H.264/AVC与 JPEG20o0的编码复杂度相当,但是解码器复杂度远小于JPEG2000_1J.本文选用H.264/AVC帧内编码标准.由于H.264/AVC视频压缩标准使用了帧内预测,整数DCT(Discretecosinetransform)变换等技术,使得编码效率得到了很大的提高,但同时也大大增加了运算的复杂度和计算量.高复杂度的计算如果用软件实现很难达到实时传输的要求,即使能够达到实时要求,PC机本身也占用了太多资源.利用硬件结构并行和速率快的特点,可以满足解决视频序列实时编码的要求. 目前大多数此类产品是基于DSP(Digitalsignal 收稿日期:2010-09-29 基金项目:国家自然科学基金项目(60572088);北京市属市管高等学校人才强教计划资助项目(PHR201007131) 作者简介:王燕(1985一),女,山东荷泽人,硕士研究生,主要从事视频编解码并行算法的研究. 第1期王燕等:无线显示适配器帧内预测设计与FPGA实现85 processing)开发的高端产品,价格昂贵,不利于推广.本系统采用FPGA芯片开发,利用FPGA周期短,灵活,可编程性强等特点,为设计实现带来了很大的方便,也为降低设计成本提供了途径;FPGA与 ASIC设计相似,其代码和设计结构的重用率很高, 所以本系统采用FPGA设计,用VerilogHDL编写代码,为以后研制专用ASIC芯片打下坚实的基础. 1H.264帧内预测算法分析 1.1帧内预测算法介绍帧内预测技术可用于去除当前图像中的空间冗余度,以提高编码效率.H.264/AVC将1个编码图像划分成若干个宏块,1个宏块由1个16×16亮度像素和附加的1个8×8Cb及1个8x8Cr彩色区块组成.在帧内预测中,当前编码宏块的上方及左方的宏块用于计算当前宏块的预测值.H.264/AVC 提供了4种帧内预测方式,包括:4×4亮度块的帧内预测(intra4×4);16×16亮度块的帧内预测(in— tral6×16);8×8色度块的帧内预测(chroma8×8) 以及PCM(Pulsecodemodulation)的预测方式 (IPCM).其中intra4×4由相邻的参考像素(A, M)预测,并提供了9种预测方式,如图1,图2所示, O(垂直)1(水平) 独立预测每个4×4亮度子块.因为预测块较小,所以适用于带有大量细节的图像编码.intral6×16有 4种预测方式,分别为垂直,水平,DC,平面预测,如图3所示,其预测值是由33个参考像素值和4种预测方式而得,此预测方式适用于平坦分区图像编码. 色度块的chroma8x8也有4种预测模式,类似于16 ×16亮度块的预测模式,只是顺序不同[2]92. }MABC,JE,G日 bd j} K,kZ P 图1intra_4×4帧内预测的像素分布 \\\.f//’ 6 705 图2亮度块预测方式下的预测方向图316×16预测模式 1.2算法分析垂直和水平预测方式最简单,直接使用上方或左方的像素,无需计算.DC预测模式是一种求均值的预测模式,根据上方和左方参考像素是否存在,求得相应参考像素的均值.如果都不存在,则设为 128.预测公式中含有(A+2×B+C)形式的预测模式,可由1个三输入加法器实现,通过配置不同的输入即可.Plane预测模式是所有模式中计算最复杂的,计算公式为?2 PL[,Y]=C((以+b(一7)+ c(r一7)+16)》5)(1) 其中C()是限幅函数,作用是将的值控制在0, 255之间,,Y为像素点的坐标,式(1)中 3(平面) .=16(P[一1,15]+p[15,一1]) 6:(SH+32)(2) C=(5+32)》6 其中,,由式(3)决定 7 H=?(+1)(P[8+,一1]一 P[6一,一1])(3) 7 V:(y+1)(P[一l,8+Y]一 P[一1,6一Y])(4) 其中,P为参考像素值,,yt为像素点的坐标. 对于Plane模式,首先需要计算出,V,0,b和c 共5个常数,且计算中涉及多次乘法运算.但是,式 (2),式(3)和式(4)中的乘法运算都可以转化成移北京信息科技大学第26卷位和加法运算,例如×3可以分解成X2×1运算. 在得出宏块左上角的预测值之后,其余的预测像素只是在其基础上简单的+b或+C运算.图4给出宏块中部分(1个4X4块)预测像素之间的关系. 图4Plabe模式最佳预测模式的选取需要分别计算每个宏块的 16个intra4X4的9种预测模式和intral6X16的4 种预测模式的最小代价,代价较小者选为亮度块的最佳预测模式;同理,分别计算8X8的4种预测模式,求出最小代价,与前面求出的亮度块的最佳预测模式组合成该宏块的最佳预测模式.本文以SATD (Sumofabsolutetransformeddifference)值作为代价计算进行比较,SATD是进行Hadamard变换之后的残差矩阵系数绝对值之和,其值在一定程度上可以反映生成码流的大小. 2新的块处理顺序 H.264/AVC标准规定了宏块内部4X4块的编码顺序,如图5所示. 由于每个待编码块都要用到左方,上方和右上方已编码重构的像素作为参考像素,所以必须要等待参一—一重建像 /素值 .I145 2367 891213 lO1l1415 图5标准规定的块处理顺序考像素所在块编码重构后才能开始预测.例如,当前block1待编码,需要block0最右侧1列的重建像素作为参考像素,所以block0在预测和模式选择之后,还需经过变换,量化和反量化,反变换(T/Q/ IT/IQ)才能得到重建像素,此时block1开始预测. 块处理顺序如图6所示.可以看出,如果按照标准规定的编码顺序,则增加了相当多的重构时间,大大降低了系统的处理速度.标准带来的一个问题是 block3,block11这2个亮度块在它们的右上方亮度块block4,block12之前处理,所以不得不放弃它们右上方块的参考像素,即舍弃了diagonaldown— left和verticalleft预测方式,降低了预测的准确度. []预测时间0重建时间回目]<==j00回ccT0网0巨橱块处理序列图6块处理顺序本文提出了新的块处理顺序如图7所示,并在处理过程中采用intra4X4和intral6X16交替进行的方式,避免了由于重建造成的时间等待. Ol36 247lO 581113 9121415 图7新的块处理顺序 3硬件电路设计帧内预测硬件电路结构如图8所示.系统主要由帧内预测和模式选择2个部分组成.其中帧内预测部分由RAM(参考像素),Plane模式预计算单元, 16PE并行处理单元,DC专用加法器,控制单元组成,模式选择部分由RAM(源像素),残差计算单元, 4并行变换单元,16输入加法器,比较器和控制单元组成. 系统包括2个片上RAM,其中第1个RAM用来存储参考像素,即存储图像1行的和宏块1列的像素大小为(1280+640X2+16)X8bit;第2个 RAM用来存储当前宏块的实际像素,大小为(16X 16+8X8X2)×8bit.为了提高系统效率,将RAM 位宽设为128bit. 系统中主要的计算部分是PE并行处理模块. 为了提高编码效率,设计了16个PE并行执行,单第1期王燕等:无线显示适配器帧内预测设计与FPGA实现87 图8系统结构位时钟周期能预测4×4块的1个模式的像素值,其结构如图9所示.该结构由3个加法器和2个移位参考像素值垂直和水亚模式数据通路 OUtr’ut 图9PE结构器构成.如果是垂直和水平预测,则无需计算,将参考像素通过垂直和水平模式数据通路直接输出.对于(A+2×B+c)》2这种形式的预测,则将in0配置成B,inl和in2分别配置成4和c.如果是(+ B+1)》1的形式,则将in0输人为0,inl和in2分别配置成A和日即可.由于DC模式的特殊性(求均值),使得16个PE并行单元无法在1个时钟周期内完成,所以设计了专门的加法器进行预计算. 专用加法器是1个8输入加法器,如图10所示.下面分别讨论DC模式的各种情况.第1种情况是in— tra4X4的DC模式的计算,如果上方和左方参考像素均存在,则分别将8个参考像素作为输入求和. 如果上方和左方参考值均不存在,则将预测像素置 p0 tlal 为128即可;如果只有1个方向的参考像素存在,则只需对4个像素求和,移位元运算即可,其余输入均置为0.第2种情况是intral6×16DC模式计算,需对32个像素求和,移位元,将32个像素分4批送人加法器,并将每次结果暂存在寄存器中,6个时钟周期后将寄存器中的数作为输入送入加法器得出32 像素之和 inO jn1 in2 in3 in4 in5 jn6 in7 图108输入加法器残差计算单元计算对应位置的源像素与预测像素之差,将结果送人变换单元.由于2D—Hadamard 变换可以分解为2个独立的1D—Hadamard变换, 即先对残差块的每行进行1D—Hadamard变换,然后对中间结果的每列再进行1D—Hadamard变换, 每次1D—Hadamard变换都可以采用蝶形算法, 以节省计算时间.变换单元采用4个并行的Had. amard变换模块,变换1个4X4残差块仅需4个时钟周期.变换结果进入l6输入加法器单元,又经过 4个时钟周期求得残差值并暂存.最后经过比较器得出最佳预测模式,并将选定模式的残差块重建,将重建结果写入RAM.控制单元控制每个模块协调 88北京信息科技大学第26卷工作,为每个模块产生读取控制信号和地址信号. 4实验结果及分析本系统选用Xilinx公司生产的Spa~an3E XC3S500E低端芯片,开发软件采用该公司推出的 ISEDesignSuite10.1设计套件,用VerilogHDL语言编写,综合工具选用XST,模拟工具选用ISESim— ulator.实验结果表明,该设计的最大综合频率是 66MHz,能实时处理1280×720(4:2:0)@30fps视频序列,且占用的逻辑资源门数仅为1.9万门,相对较少,其中包含slices1820,flipflops1381,LUTS 3449. 本文设计了16个并行的处理单元,对于1个4 ×4块,需要从片上RAM读取13个参考像素用于预测.为了提高处理速度,将RAM位宽置为 128bit,则1个intra4×4需要18个时钟周期(9个时钟周期用于预测,1个时钟周期计算残差值,4个时钟周期完成2D—Hadamard变换,求和计算需要4 个时钟周期).所以完成1个宏块的预测需要548 个时钟周期,要完成1280×720×30/(16×16)= 108k个宏块所需频率为60MHz.表1所示为各种并行度的系统设计对频率和资源的需求情况. 表1几种并行方案的比较注:表示实时编码1280×720(4:2:0)@30fps视频序列所需频率,单位为MHz. 文献[5]中设计了4个并行的PE单元,但是舍弃了计算复杂度最高的Plane预测模式,节省了硬件开销,但是压缩性能会有所下降.文献[6]中采用36个PE单元,每个时钟周期分别预测9种模式的4个预测像素,且模式选择过程没有对残差值进行Hadamard变换,而是直接求和.虽然处理速度加快,但是资源消耗较多,且存储位宽较大.文献[7] 中的并行处理能力更高,1个时钟周期能预测3个模式的预测像素,文献中只给出帧内编码总的门数, 没有单独给出帧内预测部分的资源数.从表1可以看出,当PE单元增大到一定的程度,硬件结构的处理速度并没有显着提高,但是逻辑门数却大大增多, 所以本文选择16个PE单元,在速度和器件消耗2 个衡量标准中得到了很好折中. 5结束语通过分析17种预测模式的计算方法,利用计算上的相似性,本文提出了1种通用的硬件结构.为了降低主频,提高预测器的处理能力,设计出16PE 并行处理的模块,该并行模块可在1个时钟周期预测16个像素值,提高了预测器的指令周期.实验表明,该结构的工作频率在60MHz,可实时编码1280 ×720(4:2:0)@30fps视频序列,且占用的逻辑门数为1.9万门,资源消耗相对较少,非常适用于廉价实现的无线显示适配器中. 参考文献: [1]申申.基于帧内预测的静态图像编码器FPGA 设计[D].北京:北京邮电大学,2008 [2]毕厚杰.新一代视频压缩编码标准一H.264/ AVC[M].北京:人民邮电出版社,2005 [3]HuangYW,ChenTC,ChenLG,eta1.Analysis, fastalgorithm,andVLSIarchitecturedesignfor H.264/AVCintraframecoder[J].IEEETCSVT, 401 2005,15(3):378— [4]单兰水.H.264视频编码核心算法的FPGA设计与实现[D].镇江:江苏大学,2008 [5]ChunWK,ChaoCC,GuoSY,eta1.Ahigh— definitionH.264/AVCintraframecodecIPfor digitalvideoandstillcameraapplications[J]. CircuitsandSystemsforVideoTechnology,2006, 16(8):917—928 [6]DinizCM,ZattB,AgostiniL,eta1.Arealtime H.264/AVCintraframepredictionhardwarearo chitectureforHDTV1080Pvideo[C]//Proceed. ingofthe2009IEEEInternationalconference. NewY0rk:IEEEptess,2009:1138—1141 [7]HuangCK,YounLL.AnH.264/AVCfun— modeintra——frameeneoderfor1080HDvideo[C] fProceedingofthe2008IEEEInternational Conferenee.Hannover:IEEEpress.2008:1037 一 1040

                    本文档为【【word】 无线显示适配器帧内预测设计与FPGA实现】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

【word】 无线显示适配器帧内预测设计与FPGA实现

你可能还喜欢

【word】无线显示适配器帧内预测设计与FPGA实现