首页 二维DCT图像处理器的低功耗实现

二维DCT图像处理器的低功耗实现

举报
开通vip

二维DCT图像处理器的低功耗实现二维DCT图像处理器的低功耗实现 2012-07-19################2012-07-19########2012-07-19######## 122 刘锋 ,代国定 ,庄奕琪 (北京大学 微处理器研究开发中心,北京 ;西安电子科技大学 微电子学院,陕西 西安 ) 1. 1008712. 710071 摘要:本文提出了一种基于矩阵向量乘法器的低功耗二维DC T 结构,该结构通过最大限度地共享矩阵向量乘法中 的乘积因子降低二维DC T 中的乘法计算量,实现低功耗计算。此外,该二维DC T 设计支持...

二维DCT图像处理器的低功耗实现
二维DCT图像处理器的低功耗实现 2012-07-19################2012-07-19########2012-07-19######## 122 刘锋 ,代国定 ,庄奕琪 (北京大学 微处理器研究开发中心,北京 ;西安电子科技大学 微电子学院,陕西 西安 ) 1. 1008712. 710071 摘要:本文提出了一种基于矩阵向量乘法器的低功耗二维DC T 结构,该结构通过最大限度地共享矩阵向量乘法中 的乘积因子降低二维DC T 中的乘法计算量,实现低功耗计算。此外,该二维DC T 设计支持对矩阵向量乘法器的计算 精度控制,从而实现对二维DC T 处理器的低功耗调整。FPGA 硬件平台的实际验证结果 关于同志近三年现实表现材料材料类招标技术评分表图表与交易pdf视力表打印pdf用图表说话 pdf 明,与传统的基于移位累加 乘法器的二维 DCT 设计相比,本设计可以节省35% 以上的功耗。 关键词:低功耗;DCT;矩阵向量乘法器 中图分类号:TN43 文献标识码:A 引言 1 近年来,随着移动设备中日益增加的多媒体应用,特别是视频处理的广泛应用,高性能低功耗数据处理成为图像视频处理器设计中的关键因素。对于像移动视频电话等便携式应用,提供不同的低功 耗处理模式可以为系统更加有效的实现功耗控制提供条件。因此,低功耗及功耗可调整特征成为图像 视频处理器设计中需考虑的主要因素之一。 离散余弦变换(DCT:Discrete Cosine Transform)及其反变换是视频编解码处理中的主要环节之 一。DCT 作为变换编码算法,在图像/视频编解码中,用于减小/消除图像中的空间冗余。目前,DCT 已 [1]经成为众多图像/视频编解码国际 标准 excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载 (如:JPEG,H.261/3,MPEG1/2/4)中的关键算法之一。与运 动估计(ME:Motion Estimation)相似,在视频处理中,DCT 也是数据量集中的运算。以 H.263 编码 [2]为例,DCT/IDCT 所需的计算量约占编码总计算量的 21%,这个比例是运动估计为半像素全搜索下 的结果,如果 ME 采用快速算法,该比例可上升到约 50%。 在图像编码的应用中,针对 DCT/IDCT 设计提出了不少低功耗优化 方法 快递客服问题件处理详细方法山木方法pdf计算方法pdf华与华方法下载八字理论方法下载 ,这些方法大致可以分成 两大类:一类是在编解码过程中,通过动态跳过某些数据的 DCT/IDCT 计算来减少 DCT/IDCT 的调用 次数,从而降低编解码过程中所需的 DCT/IDCT 计算量,达到低功耗的目的,如:在运动图像编码中, [3,4][3~5]根据 SAD 值的大小跳过低能量宏块的 DCT/IDCT 计算,跳过零值块的 IDCT 计算等;另一类方 法是通过对 DCT/IDCT 处理器的设计,减小每次 DCT/IDCT 变换耗费的能量来降低功耗,属于这类的 [6]方法如 Xanthopoulos 等人提出的根据输入数据特征,动态改变 DCT 处理器数据带宽的方法,和采用 [7,8]门控制时钟、多级流水线降低工作频率和降低工作电压的设计方法等。 本文提出了一种基于共享预乘积因子乘法器结构实现二维 DCT 中的矩阵向量乘法,通过最大限度 地共享预乘积因子降低矩阵向量乘法的计算复杂度,从而达成降低运算功耗的目的。此外,该二维 DCT 设计支持对矩阵向量乘法器的计算精度控制,从而实现不同等级的二维 DCT 低功耗调整。 低功耗矩阵向量乘法器2 本节阐述二维 DCT 中低功耗矩阵向量乘法器设计原理及其硬件实现方法。 对于任意小数 d,可以用式(1)所示的表达式得到近似值: N ?id ? sign × scaler × 2(1) ? i i 2012-07-19################20i =0 12-07-19########2012-07-19######## 5×2 +(5×2 )×2 +(1×2 )×2 和 1×2 -(5×2 )×2 +(1×2 )×2 近似表示。若每四位合并为一项,则式(1) 又可以写成如下形式: N ?k?4i d ? sign× (scaler× 2 ) × 2(2) ? i i i=0 可以分别用代 数式 其中 k ? {0,1,2,3} ,根 据式( 2 )近似 表 示式, DCT 系数 a 、 c -3-1-3-4-1-8 -1-3-4-1-1-8 5×2×2+(5×2)×2+(1×2)×2和 1×2-(5×2)×2+(1×2×2) ×2近似表示。定义代数式中的相同的乘 -1-3积项{1×2, 5×2}为系数 A 和 C 的公共因子,记作{1M, 5M}。另外,系数 a 和 c 也可以写成基 2 的小数 形式,分别为 a?0.0101 1010 1000 和 c?0.1000 -1010 0100。 按照式(2)的表示方法,在计算乘积 Y×aY 和 Y×c 时,只需预先求得 Y 与公共因子{1M, 5M} -1-3 的乘积 Y×(1×2)、Y×(5×2),然后通过简单的 移位相加运算即可得出 Y×a 和 Y×c 的乘积。该 1M 5M PSU 运算过程可以用图 1 的所示的框图表示。 multiplexer 如图 1 所示,共享乘积因子乘法器(SSM: Scalers Sharing Multiplier)结构主要包括二部 1M -5M>>4 5M>>1 5M>>4 分,分别为预乘积单元(PSU:Pre-Scale Unit) + + 和移位求和单元(SAU:Shift-Add Unit)。预 SAU SAU 乘积单元计算输入数据与所有共享乘积因子的 乘积,而移位求和单元通过简单的移位求和计 1M>>10 1M>>9 >>0 >>0 算得到最终的乘积结果。 对于任意 n 维向量 C = {c, c,…c} ,若 ci 0 1 n + + 的二进制精度为 16 位,按照式(2)的表示方 SAU SAU -1-2法,可以找出其公共乘积因子为{1×2, 3×2, Y*c Y*a 图 1 计算 Y×a、Y×c 的共享乘积因子乘法器结构 -3-3 5×2, 7×2},记作{1M, 3M, 5M, 7M},计算 Y 与向量 C 点积的共享乘积因子乘法器构架如图 2 所示。 -4-4-4 -4-3-1-2 -3 对于另外四个积因子:9×2, 11×2, 13×2和 15×2,由于它们分别是 7×2,5×2, 3×2和 1×2的四位 -1-2-3-3二制补码,可以用公共乘积因子{1×2, 3×2, 5×2, 7×2}表示。 Y 根据共享乘积因子乘法器结构,可以找到满足计算 精度的要求的最小数目的共享乘积因子,而且对于相同 的乘积运算,所需的共享乘积因子越少,矩阵向量乘法 7M 1M 5M 3M 的计算量就越小,从而计算功耗也越小。此外,SSM 乘 PSU MUX 法器的计算复杂度可以通过减小系数的二进制位长得出 降低,在硬件上只需通过控制相应的 SAU 单元即可方便 SAU SAU SAU SAU 得控制 SSM 乘法器的计算复杂度,具体的控制方法在第 ... SAU SAU 三节中阐述。 与文献[9]中的 CHSM 方法相比,本文的 SSM 方法 Y*c 0Y*c n 图 2 共享乘积因子乘法器结构 采用了不同的预乘积因子设计和更加灵活的低功耗控制策略。在相同的二进制系数位宽条件下,SSM 方法可以获得比 CHSM 方法更高的计算精度。 3 DCT 二维 算法及硬件构架 8×8 的二维离散余弦变换如式(3)所示,通过该式可将时空域的采样点信号 x(i, j)变换为频域空间 () ()() 信号 Z(u, v),其中 0 ?i , j, u, v ?7 , 同时 C u = 1/ 2 , C u 、C v= 1 ,当 u, v ? 0 。 由于 DCT 是一种空间可分离的变换,其二维变换可以拆分为两个独立的一维变换实现,用矩阵形 式可以表示为式(4): T T TZ =C XC ? Y =C X , Z = CY (4) T 式中,C 为 8×8 的 DCT 系数矩阵,根据矩阵 C 的对称性,又可以将式(4)中的一维 DCT 计算 Y=CX 按奇、偶分成如式(5)、式(6)所示的矩阵向量乘法运算。 Y 0+ X 7AA A A X 0 ?? ? ? ? ? ? ??? ? ? F ? C + X 6 X 1 ?F Y 2C ? ? ??? ? = (5) ? ? ??? ? A ? AX 2 + X 5? AY 4A ? ? ??? ? ? CC Y 6F?F + X 4X 3 ?? ? ? ? ? D E ? X 7G X 0 Y1 ? ? ?B?? ? ? ? ?? ?? ? G?B ?E ? X 6 X 1 Y 3D ? ? ??? ? = (6) 图 3 二维 DCT 处理器 ? ? ??? ? G ?B ?D X 2 ?X 5Y 5E 的硬件构架框图? ? ?? ?? ? C ?B ?X 4X 3 Y 7GD ? ? ? ?? ? πππ3π 5π 3π7π 1 ?? 其中, (A, B, C, D, E, F , G ) =cos , cos , cos , cos , cos , cos , cos ? 。 ? 8 2 4 16 8 16 1616 ? ? 二维 DCT 处理器的硬件构架框图如图 3 所示,该结构通过共用一个一维 DCT 计算单元实现二维 [10] DCT 计算,整个处理器设计只需用到 7 个乘法单元。 图 3 中,预处理单元对串行输入 X 矩阵列数据和 Y 矩阵行数据进行预处理,分别输出 X3+X4, X2+X5,X1+X6, X0+X7 和 X3-X4, X2-X5, X1-X6, X0-X7 至矩阵向量乘法器 A 和矩阵向量乘法器 B。对于 Y 矩阵, 对应输出 Y3+Y4, Y2+Y5, Y1+Y6, Y0+Y7 和 Y3-Y4, Y2-Y5, Y1-Y6, Y0-Y7。矩阵向量乘法器 A 实现式(5)表 示的矩阵向量乘法运算,矩阵向量乘法器 B 实现式(6)表示的矩阵向量乘法运算,由于式(5)、(6) 得出的计算结果是奇偶分开的,在后处理单元,将一维或二维 DCT 计算的奇偶分开结果调整为顺序输 出结果。转置 RAM 用做一维 DCT 计算后的数据缓冲,实现矩阵转置运算。 矩阵向量乘法器是二维 DCT 实现的关键单元,设计中采用基于共享乘积因子的乘法器(SSM)实 现矩阵向量乘法。首先,用带符号的二进制小数对 DCT 系数进行近似,根据式(2)的表示方法,找 出最少的共享乘积因子集合。根据不同的计算精度要求,设计 8 位、12 位和 16 位的 DCT 系数近似精 度,对应三种计算精度的 DCT 系数近似二进制表示及共享乘积因子集合如表 1 所示。 如 前 所 表 1 DCT 系数的近似表示 述,二维 DCT DCT 位精度表示 位精度表示 位精度表示 乘积因子12 8 16 计算可以分为 系数 a 0101 1010 1000 0001 0.35358 0101 1010 1000 0.35352 0101 1010 0.3516 1M 5M 式(5)、(6) 1000 –0010 –0111 –0010 0.49036 1000 –0010 –0111 0.49048 1000 –0010 0.4922 1M 7M b 所示的两个矩1000 –1010 0100 0000 0.46191 1000 –1010 0100 0.46191 1000 –1010 0.4609 1M 5M c 阵向量乘法运 0111 –0110 0111 –0001 0.41571 0111 –0110 0111 0.41577 0111 –0110 0.4141 3M 7M d e 0100 0111 0010 –0001 0.27777 0100 0111 0010 0.27783 0100 0111 0.2773 1M 7M 算,与之对应, 0011 0001 –0001 0011 0.19135 0011 0001 –0001 0.19117 0011 0001 0.19141 1M 3M f 设计了两个基 g 0010 –0111 –0001 0010 0.09754 0010 –0111 –0001 0.09741 0010 –0111 0.09766 1M 7M 于共享乘积因 子的矩阵向量乘法器分别实现式(5)、(6)所示的矩阵向量乘法运算。从表 1 可得,对应式(5)的共 享乘积因子集合为{1M, 3M, 5M},对于式 6 的共享乘积因子集合为{1M, 3M, 7M}。由于实现式(5)与 式(6)的矩阵向量乘法器具有相同的结构,阐述简洁起见,本文以式(5)对应的矩阵向量乘法为例 DCT 3[11]说明矩阵向量乘法器的结构设计。二维 处理器(图 )中的其它单元设计详细阐述可参考文献。 1M 果 Y0,Y2,Y4 和 Y6。控制单元控 X iC*X i3M SAU C 制累加运算及结果锁存输出。 5M F*X 共享乘积因子乘法器的硬件结 iSAU F PRU 构如图 5 所示,该结构中,通过引 ACC0 ACC1 ACC2 ACC3 入的控制信号 En0 和 En1,可以设 控制单元 Y0 Y2 Y4 Y6 定 8/12/16 位 DCT 系数精度,对应 4:1 MUX 三种精度的 DCT 运算。对于图中带 Ye i 式(5)对应的矩阵向量乘法器结构框图 En 控制端的移位求和单元(SAU), 图 4 当 En 信号使能 Y 时,SAU 执行正 常的移位求和运 3M 1M 5M PSU 算,反之,当 En multiplexer 信号非使能时, 1M 1M>>4 -1M>>4 3M>>2 5M>>1 5M>>4 3M>>2 1M>>4 SAU 单元跳过 其中的加 法 运 + + + + 算,直接输出加 SAU EN SAU SAU EN SAU 数作为运 算 结 ... En0 果。En 控制信号 >>8 >>8 >>0 >>0 与 DCT 计算精 度的关系如表 2 + + 所示。对于图像 SAU SAU EN EN 处理,该结构可 ... En1 以方便快速地实 Y*a Y*f 图 5 式(5)对应的共享乘积因子乘法器结构框图 表 2 En 控制信号 现处理功耗与图像质量之间的折衷。 与 DCT 计算 4 DCT 精度的关系 低功耗二维 处理器性能分析 En1 计算精度 En0 该 DCT/IDCT 处理器采用 Verilog HDL 描述,基于 ALTERA 的 FPGA 库 1 1 位 16 1 0 12 位进行仿真综合,并且在 FPGA 硬件平台 EPF10K250ABC600-3 上进行实际验 0 0 8 位证。设定芯片的 I/O 电压和核电压为 3.3V,在随机数据输入条件下,实际测得 不同计算精度下二维 DCT 处理器平均功耗数据如表 3 所示。同时,表 3 还列出了不同计算精度下的关 键路径延时及等效门数。表 3 不同计算精度下二维 DCT 处理器平均功耗 [10]从表 3 可知,与单纯采用移位加法实现的二 位 位 位 移位加法实现16 12 8 平均功耗 48.43 40.35 33.16 54.16 维 DCT 处理器相比,本文设计的基于共享乘积因 (mW)关键路径延时(ns) 23.12 22.53 19.36 30.12 子乘法器实现二维 DCT 处理器在功耗方面有较 等效门数27,404 29,254 大幅度的降低,8 位精度下,功耗降低幅度为 39%。此外,基于共享乘积因子乘法器的 DCT 处理性速度 表 4 标准图像序列测试结果性能也有较大的提高,处理器所需的晶体管数也有所减少。 图像序News Container Foreman 列模式 PSNR (dB) PSNR (dB) PSNR (dB) 为衡量该 DCT 处理器在图像处理应用中,对图像质量 位 41.84 42.45 43.58 16 的影响。采用三个标准的视频图像序列(News,Container 12 位 41.83 42.44 43.56 ,位 移位40.83 39.92 40.19 和 Foreman)在该处理器上进行测试分析,对应处理器不 [10] 加法41.81 42.43 43.54 同精度处理模式,相应的分析结果列于表 4。从表 4 中可 [9]CSHM 39.37 36.99 36.78 5 结论 基于共享乘积因子乘法器,本文设计了一种低功耗二维 DCT 处理器,共享乘积因子乘法器通过共 用二维 DCT 运算中矩阵向量乘法中重复的乘积运算,较大程度地减小了乘法运算的计算复杂度,从而 降低了处理器功耗。实测结果显示,采用共享乘积因子乘法器的二维 DCT 处理器比单纯基于移位加法 乘法器的二维 DCT 处理器设计功耗可降低约 39%,同时保证合理的图像质量损失。另外,在该处理 器中,通过改变乘法器计算精度,可以在一定范围内快速调整处理器的功耗,从而实现功耗即时调整 的要求。低功耗及功耗可调整的特性,使得该 DCT 处理器非常适合于便携式多媒体专用处理器设计。 此外,本文中的基于共享乘积因子乘法器设计思想,可以应用于其它需要实现固定系数的矩阵向 量乘法的处理设计中。 参考文献: [1] ISO/IEC 14496-2. Coding of Audio Visual Objects-part2: Visual [S]. 1999-12. [2] B EROL, F Kossentini, H Alnuweiri. Implementation of a fast H.263+ encoder/decoder [A]. Conference Record of the 32nd Asilomar Conference on Signals, Systems & Computers [C]. 1998-09, 1: 462-466. Nathaniel August, Don Sam Ha. On the low-power design of DCT and IDCT for low bit-rate video codes [A]. Intn’ 1 ASIC/SoC Conference [C]. [3] Arlington VA, USA. 2001-09. Kim, Beerel. A high-performance low-power asynchronous matrix vector multiplier for discrete cosine transform [A]. The First IEEE Asia [4] Pacific Conference on ASICs [C]. 1999-08. 135-138. E Scopa, A Leone, R Guerrieri, G Baccarani. A 2-D DCT low power architecture for H.261cCoders [A]. 1995 International Conference on [5] Acoustics, Speech, and Signal Processing [C]. 1995-05, 5: 3271-3274. Xanthopoulos, Chandrakasan. A low power DCT core using adaptive bitwidth and arithmetic activity exploiting signal correlations and [6] quantization [J]. IEEE Journal of Solid State Cricuits, 2000-05, 35: 740-750. Xanthopolous, Chandrakasan. A low-power IDCT macrocell for MPEG-2 MP@ML exploiting data distribution properties for minimal activity [J]. [7] IEEE Journal of Solid State Circuits, 1999-05, 34: 693-703. Chen Jiu, Chang Lee, Ku. A low power 2-D DCT chip design using direct 2-D algorithm [A]. Proceedings of the ASP-DAC '98. Asia and South [8] Pacific Design Automation Conference [C]. 1998-02. 145-150. J Park, S Kwon, Kaushik Roy. Low Power Reconfigurable DCT Design based on Sharing Multiplication [A]. IEEE ICASSP [C]. 2002. [9] A Madisetti, A. N Willson. A 100MHz 2-D 8×8 DCT/IDCT processor for HDTV applications [J]. IEEE Transactions on Circuits and Systems [10] for Video Technology, 1995, 5(2): 158-165.. 刘锋等. 一种基于高度并行结构的二维 DCT/IDCT 处理器设计[J]. 电路与系统学报, 2003, 8(3): 87-92. [11] 作者简介:刘锋(1977-),男,汉族,1999 年获西安电子科技大学电子科学技术学士学位,分别于20 02 年和 2005 年获西安电子科技大学微电学与固体电子学硕士和博士学位,现在北京大学微处理器研究开发中心工作,从事多媒体 处理器及 SoC 设计方法研究。 Low power 2-D DCT design 122LIU Feng, DAI Guo-ding, ZHUANG Yi-qi ( 1. Microprocessor Research & Development Center, Peking University, Bejing 100871, China; 2. Institute of Microelectronics Xidian University, Xi’an 710071, China ) Abstract: This paper proposes a low power DCT architecture based on scalers sharing multiplier, which reduces the computation complexity of matrix-vector multiplication by sharing a small set of pre-products. The presented architecture also provides an easy approach for making trade off between image quality and power dissipation through scaling multiplier’s precision. Experimental result on a hardware FPGA platform shows that more than 35% power saving can be achieved by replacing the shift-adder multipliers with the scalers sharing multipliers in the baseline design. Key words: low power; DCT; matrix-vector multiplier Your requestcould not be processed becauseof a configurationerror: "Could not connect to LDAPserver." For assistance,contact your network support team. file:///C|/Users/Administrator/Desktop/新建文本文档.txt 涵盖各行业最丰富完备的资料文献,最前瞻权威的行业动态,是专业人士的不二选择。 file:///C|/Users/Administrator/Desktop/新建文本文档.txt2012/8/26 12:19:58
本文档为【二维DCT图像处理器的低功耗实现】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_841159
暂无简介~
格式:doc
大小:35KB
软件:Word
页数:0
分类:生活休闲
上传时间:2017-11-11
浏览量:20