【word】 无线显示适配器帧内预测
设计
领导形象设计圆作业设计ao工艺污水处理厂设计附属工程施工组织设计清扫机器人结构设计
与FPGA实现
无线显示适配器帧内预测设计与FPGA实
现
第26卷第1期
2011年2月
北京信息科技大学
JournalofBeijingInformationScienceandTechnologyUniversity
V01.26No.1
Feb.2011
文章编号:1674—6864(2011)O1—0084—05
无线显示适配器帧内预测设计与FPGA实现
王燕,杨大利,侯凌燕
(北京信息科技大学计算机学院,北京100192)
摘要:针对无线显示适配器实时处理和低成本的设计需求,对帧内压缩部分采用新一
代视频压缩
标准
excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载
H.264/AVC的帧内预测技术.通过
分析
定性数据统计分析pdf销售业绩分析模板建筑结构震害分析销售进度分析表京东商城竞争战略分析
帧内预测的所有方式,利用它们计算上
的相似性,设计了公共的处理单元PE,并利用16个PE单元并行处理,1个时钟周期可预测出l6
个像素值,该设计结构使系统处理速度得到很大的提高.实验结果表明,在60MHz的频率下,该
结构可实时编码1280×720(4:2:0)@30fps视频序列,且资源消耗相对
较少,适用于无线显示适配
器的实现.
关键词:帧内预测;并行;无线显示适配器
中图分类号:TN919.81文献标志码:A
DesignandFPGArealizationofintraframeprediction
forwirelessdisplayadapter
WANGYan,YANGDa—li,HOULing-yan
(SchoolofComputerScience,BeijingInformationScienceandTechnologyUniversity,BeOing100192,China)
Abstract:Inordertomeetthereal—timeprocessingandthelOWcostrequire
mentsonwirelessdis-
playadapter,anewintraframepredictiontechnologyinH.264/AVCisusedfortheintraframecompres—
sion.Accordingtotheanalysisofalltheintraframepredictionmodes,thesimilarityofcalculationisused
todesign16PEunitsinparallelprocessinginwhich16pixelscanbepredictedinonecycle.Thisstruc-
tureincreasesthespeedofthesystem.Theexperimentshowsthattheworkingfrequenciesofthestructure
cancode1280x720@3Ofpsvideosequencesunder60MHz,andresourceisconsumedlessrelatively.
Thestructurecanbeusedinwirelessdisplayadaptercompatibly.
Keywords:intraframeprediction;parallel;wirelessdisplayadapter
O引言
无线显示适配器可以实现显示器与主机的分
离,摆脱线缆的束缚,满足人们工作便捷性的要求,
可应用于办公场所,军事,医疗和工业监控等方面.
由于无线显示适配器基于无线传输技术,为了适应
其传输带宽低等的制约,必须将大规模的数据信息
进行压缩,以满足实时传输的要求,所以必须采用视
频压缩技术.视频压缩的关键技术包括帧内预测,
帧间预测和码率控制,本文研究的是帧内压缩部分.
当今比较有影响力的静态图像压缩标准有JPEG,
JPEG2000和H.264/AVC.从编码性能来看,
JPEG2000与H.264/AVC相当,远高于JPEG标准;
从编码复杂度来说,三者的性能比约为1:6:6,解码
复杂度比约为1:10:2,可见H.264/AVC与
JPEG20o0的编码复杂度相当,但是解码器复杂度远
小于JPEG2000_1J.本文选用H.264/AVC帧内编码
标准.由于H.264/AVC视频压缩标准使用了帧内
预测,整数DCT(Discretecosinetransform)变换等技
术,使得编码效率得到了很大的提高,但同时也大大
增加了运算的复杂度和计算量.高复杂度的计算如
果用软件实现很难达到实时传输的要求,即使能够
达到实时要求,PC机本身也占用了太多资源.利用
硬件结构并行和速率快的特点,可以满足解决视频
序列实时编码的要求.
目前大多数此类产品是基于DSP(Digitalsignal
收稿日期:2010-09-29
基金项目:国家自然科学基金项目(60572088);北京市属市管高等学校人才强教
计划
项目进度计划表范例计划下载计划下载计划下载课程教学计划下载
资助项目(PHR201007131)
作者简介:王燕(1985一),女,山东荷泽人,硕士研究生,主要从事视频编解码并行算法的研究.
第1期王燕等:无线显示适配器帧内预测设计与FPGA实现85
processing)开发的高端产品,价格昂贵,不利于推
广.本系统采用FPGA芯片开发,利用FPGA周期
短,灵活,可编程性强等特点,为设计实现带来了很
大的方便,也为降低设计成本提供了途径;FPGA与
ASIC设计相似,其代码和设计结构的重用率很高,
所以本系统采用FPGA设计,用VerilogHDL编写代
码,为以后研制专用ASIC芯片打下坚实的基础.
1H.264帧内预测算法分析
1.1帧内预测算法介绍
帧内预测技术可用于去除当前图像中的空间冗
余度,以提高编码效率.H.264/AVC将1个编码图
像划分成若干个宏块,1个宏块由1个16×16亮度
像素和附加的1个8×8Cb及1个8x8Cr彩色区块
组成.在帧内预测中,当前编码宏块的上方及左方
的宏块用于计算当前宏块的预测值.H.264/AVC
提供了4种帧内预测方式,包括:4×4亮度块的帧
内预测(intra4×4);16×16亮度块的帧内预测(in—
tral6×16);8×8色度块的帧内预测(chroma8×8)
以及PCM(Pulsecodemodulation)的预测方式
(IPCM).其中intra4×4由相邻的参考像素(A,
M)预测,并提供了9种预测方式,如图1,图2所示,
O(垂直)1(水平)
独立预测每个4×4亮度子块.因为预测块较小,所
以适用于带有大量细节的图像编码.intral6×16有
4种预测方式,分别为垂直,水平,DC,平面预测,如
图3所示,其预测值是由33个参考像素值和4种预
测方式而得,此预测方式适用于平坦分区图像编码.
色度块的chroma8x8也有4种预测模式,类似于16
×16亮度块的预测模式,只是顺序不同[2]92.
}MABC,JE,G日
bd
j}
K,kZ
P
图1intra_4×4帧内预测的像素分布
\\\.f//’
6
705
图2亮度块预测方式下的预测方向
图316×16预测模式
1.2算法分析
垂直和水平预测方式最简单,直接使用上方或
左方的像素,无需计算.DC预测模式是一种求均值
的预测模式,根据上方和左方参考像素是否存在,求
得相应参考像素的均值.如果都不存在,则设为
128.预测公式中含有(A+2×B+C)形式的预测模
式,可由1个三输入加法器实现,通过配置不同的输
入即可.Plane预测模式是所有模式中计算最复杂
的,计算公式为?2
PL[,Y]=C((以+b(一7)+
c(r一7)+16)》5)(1)
其中C()是限幅函数,作用是将的值控制在0,
255之间,,Y为像素点的坐标,式(1)中
3(平面)
.=16(P[一1,15]+p[15,一1])
6:(SH+32)(2)
C=(5+32)》6
其中,,由式(3)决定
7
H=?(+1)(P[8+,一1]一
P[6一,一1])(3)
7
V:(y+1)(P[一l,8+Y]一
P[一1,6一Y])(4)
其中,P为参考像素值,,yt为像素点的坐标.
对于Plane模式,首先需要计算出,V,0,b和c
共5个常数,且计算中涉及多次乘法运算.但是,式
(2),式(3)和式(4)中的乘法运算都可以转化成移
北京信息科技大学第26卷
位和加法运算,例如×3可以分解成X2×1运算.
在得出宏块左上角的预测值之后,其余的预测像素
只是在其基础上简单的+b或+C运算.图4给出
宏块中部分(1个4X4块)预测像素之间的关系.
图4Plabe模式
最佳预测模式的选取需要分别计算每个宏块的
16个intra4X4的9种预测模式和intral6X16的4
种预测模式的最小代价,代价较小者选为亮度块的
最佳预测模式;同理,分别计算8X8的4种预测模
式,求出最小代价,与前面求出的亮度块的最佳预测
模式组合成该宏块的最佳预测模式.本文以SATD
(Sumofabsolutetransformeddifference)值作为代价
计算进行比较,SATD是进行Hadamard变换之后的
残差矩阵系数绝对值之和,其值在一定程度上可以
反映生成码流的大小.
2新的块处理顺序
H.264/AVC标准规
定了宏块内部4X4块的
编码顺序,如图5所示.
由于每个待编码块都要用
到左方,上方和右上方已
编码重构的像素作为参考
像素,所以必须要等待参
一—一重建像
/素值
.I145
2367
891213
lO1l1415
图5标准规定的块处理顺序
考像素所在块编码重构后才能开始预测.例如,当
前block1待编码,需要block0最右侧1列的重建
像素作为参考像素,所以block0在预测和模式选择
之后,还需经过变换,量化和反量化,反变换(T/Q/
IT/IQ)才能得到重建像素,此时block1开始预测.
块处理顺序如图6所示.可以看出,如果按照标准
规定的编码顺序,则增加了相当多的重构时间,大大
降低了系统的处理速度.标准带来的一个问题是
block3,block11这2个亮度块在它们的右上方亮
度块block4,block12之前处理,所以不得不放弃它
们右上方块的参考像素,即舍弃了diagonaldown—
left和verticalleft预测方式,降低了预测的准确度.
[]预测时间0重建时间
回目]<==j00回ccT0网0巨橱
块处理序列
图6块处理顺序
本文提出了新的块处理顺序如图7所示,并在
处理过程中采用intra4X4和intral6X16交替进行
的方式,避免了由于重建造成的时间等待.
Ol36
247lO
581113
9121415
图7新的块处理顺序
3硬件电路设计
帧内预测硬件电路结构如图8所示.系统主要
由帧内预测和模式选择2个部分组成.其中帧内预
测部分由RAM(参考像素),Plane模式预计算单元,
16PE并行处理单元,DC专用加法器,控制单元组
成,模式选择部分由RAM(源像素),残差计算单元,
4并行变换单元,16输入加法器,比较器和控制单元
组成.
系统包括2个片上RAM,其中第1个RAM用
来存储参考像素,即存储图像1行的和宏块1列的
像素大小为(1280+640X2+16)X8bit;第2个
RAM用来存储当前宏块的实际像素,大小为(16X
16+8X8X2)×8bit.为了提高系统效率,将RAM
位宽设为128bit.
系统中主要的计算部分是PE并行处理模块.
为了提高编码效率,设计了16个PE并行执行,单
第1期王燕等:无线显示适配器帧内预测设计与FPGA实现87
图8系统结构
位时钟周期能预测4×4块的1个模式的像素值,其
结构如图9所示.该结构由3个加法器和2个移位
参考像素值
垂
直
和
水
亚
模
式
数
据
通
路
OUtr’ut
图9PE结构
器构成.如果是垂直和水平预测,则无需计算,将参
考像素通过垂直和水平模式数据通路直接输出.对
于(A+2×B+c)》2这种形式的预测,则将in0配
置成B,inl和in2分别配置成4和c.如果是(+
B+1)》1的形式,则将in0输人为0,inl和in2分
别配置成A和日即可.由于DC模式的特殊性(求
均值),使得16个PE并行单元无法在1个时钟周
期内完成,所以设计了专门的加法器进行预计算.
专用加法器是1个8输入加法器,如图10所示.下
面分别讨论DC模式的各种情况.第1种情况是in—
tra4X4的DC模式的计算,如果上方和左方参考像
素均存在,则分别将8个参考像素作为输入求和.
如果上方和左方参考值均不存在,则将预测像素置
p0
tlal
为128即可;如果只有1个方向的参考像素存在,则
只需对4个像素求和,移位元运算即可,其余输入均
置为0.第2种情况是intral6×16DC模式计算,需
对32个像素求和,移位元,将32个像素分4批送人
加法器,并将每次结果暂存在寄存器中,6个时钟周
期后将寄存器中的数作为输入送入加法器得出32
像素之和
inO
jn1
in2
in3
in4
in5
jn6
in7
图108输入加法器
残差计算单元计算对应位置的源像素与预测像
素之差,将结果送人变换单元.由于2D—Hadamard
变换可以分解为2个独立的1D—Hadamard变换,
即先对残差块的每行进行1D—Hadamard变换,然
后对中间结果的每列再进行1D—Hadamard变换,
每次1D—Hadamard变换都可以采用蝶形算法,
以节省计算时间.变换单元采用4个并行的Had.
amard变换模块,变换1个4X4残差块仅需4个时
钟周期.变换结果进入l6输入加法器单元,又经过
4个时钟周期求得残差值并暂存.最后经过比较器
得出最佳预测模式,并将选定模式的残差块重建,将
重建结果写入RAM.控制单元控制每个模块协调
88北京信息科技大学第26卷
工作,为每个模块产生读取控制信号和地址信号.
4实验结果及分析
本系统选用Xilinx公司生产的Spa~an3E
XC3S500E低端芯片,开发软件采用该公司推出的
ISEDesignSuite10.1设计套件,用VerilogHDL语
言编写,综合工具选用XST,模拟工具选用ISESim—
ulator.实验结果表明,该设计的最大综合频率是
66MHz,能实时处理1280×720(4:2:0)@30fps视
频序列,且占用的逻辑资源门数仅为1.9万门,相对
较少,其中包含slices1820,flipflops1381,LUTS
3449.
本文设计了16个并行的处理单元,对于1个4
×4块,需要从片上RAM读取13个参考像素用于
预测.为了提高处理速度,将RAM位宽置为
128bit,则1个intra4×4需要18个时钟周期(9个时
钟周期用于预测,1个时钟周期计算残差值,4个时
钟周期完成2D—Hadamard变换,求和计算需要4
个时钟周期).所以完成1个宏块的预测需要548
个时钟周期,要完成1280×720×30/(16×16)=
108k个宏块所需频率为60MHz.表1所示为各种
并行度的系统设计对频率和资源的需求情况.
表1几种并行
方案
气瓶 现场处置方案 .pdf气瓶 现场处置方案 .doc见习基地管理方案.doc关于群访事件的化解方案建筑工地扬尘治理专项方案下载
的比较
注:表示实时编码1280×720(4:2:0)@30fps视频序列所需频
率,单位为MHz.
文献[5]中设计了4个并行的PE单元,但是舍
弃了计算复杂度最高的Plane预测模式,节省了硬
件开销,但是压缩性能会有所下降.文献[6]中采
用36个PE单元,每个时钟周期分别预测9种模式
的4个预测像素,且模式选择过程没有对残差值进
行Hadamard变换,而是直接求和.虽然处理速度加
快,但是资源消耗较多,且存储位宽较大.文献[7]
中的并行处理能力更高,1个时钟周期能预测3个
模式的预测像素,文献中只给出帧内编码总的门数,
没有单独给出帧内预测部分的资源数.从表1可以
看出,当PE单元增大到一定的程度,硬件结构的处
理速度并没有显着提高,但是逻辑门数却大大增多,
所以本文选择16个PE单元,在速度和器件消耗2
个衡量标准中得到了很好折中.
5结束语
通过分析17种预测模式的计算方法,利用计算
上的相似性,本文提出了1种通用的硬件结构.为
了降低主频,提高预测器的处理能力,设计出16PE
并行处理的模块,该并行模块可在1个时钟周期预
测16个像素值,提高了预测器的指令周期.实验表
明,该结构的工作频率在60MHz,可实时编码1280
×720(4:2:0)@30fps视频序列,且占用的逻辑门数
为1.9万门,资源消耗相对较少,非常适用于廉价实
现的无线显示适配器中.
参考文献:
[1]申申.基于帧内预测的静态图像编码器FPGA
设计[D].北京:北京邮电大学,2008
[2]毕厚杰.新一代视频压缩编码标准一H.264/
AVC[M].北京:人民邮电出版社,2005
[3]HuangYW,ChenTC,ChenLG,eta1.Analysis,
fastalgorithm,andVLSIarchitecturedesignfor
H.264/AVCintraframecoder[J].IEEETCSVT,
401 2005,15(3):378—
[4]单兰水.H.264视频编码核心算法的FPGA设
计与实现[D].镇江:江苏大学,2008
[5]ChunWK,ChaoCC,GuoSY,eta1.Ahigh—
definitionH.264/AVCintraframecodecIPfor
digitalvideoandstillcameraapplications[J].
CircuitsandSystemsforVideoTechnology,2006,
16(8):917—928
[6]DinizCM,ZattB,AgostiniL,eta1.Arealtime
H.264/AVCintraframepredictionhardwarearo
chitectureforHDTV1080Pvideo[C]//Proceed.
ingofthe2009IEEEInternationalconference.
NewY0rk:IEEEptess,2009:1138—1141
[7]HuangCK,YounLL.AnH.264/AVCfun—
modeintra——frameeneoderfor1080HDvideo[C]
fProceedingofthe2008IEEEInternational
Conferenee.Hannover:IEEEpress.2008:1037
一
1040