首页 VHDL设计风格和实现

VHDL设计风格和实现

举报
开通vip

VHDL设计风格和实现VHDL设计风格和实现内容概述一、同步设计二、速度三、资源四、其他一、同步设计什么是同步设计?同步设计:上游数据到下游逻辑单元的传递是通过时钟来同步的。-只要能满足时延要求,就可以确保下游逻辑单元能正确采样到上游数据。异步设计:上游数据发生变化的时机是不确定的,甚至会出现中间态。-下游逻辑对上游数据的采样是不确定的,会发生数据传递的错误。为什么要做同步设计?两年前我做的FPGA设计,现在却不能工作。FPGA本身有什么变化吗?-如果采用的是异步设计,能否工作有很多无法控制的随机因素。我的设计原来可以工作,但将FPGA...

VHDL设计风格和实现
VHDL设计风格和实现内容概述一、同步设计二、速度三、资源四、其他一、同步设计什么是同步设计?同步设计:上游数据到下游逻辑单元的传递是通过时钟来同步的。-只要能满足时延要求,就可以确保下游逻辑单元能正确采样到上游数据。异步设计:上游数据发生变化的时机是不确定的,甚至会出现中间态。-下游逻辑对上游数据的采样是不确定的,会发生数据传递的错误。为什么要做同步设计?两年前我做的FPGA设计,现在却不能工作。FPGA本身有什么变化吗?-如果采用的是异步设计,能否工作有很多无法控制的随机因素。我的设计原来可以工作,但将FPGA重新布线后,就不行了。怎么回事?-异步设计也许在特定布线下能工作,但布线改变后就不行了。很危险吧?我的设计通过了时间仿真,但上板调试时不干活。时间仿真对不对?-对于异步设计,通过了时间仿真也不一定能正常工作。要小心,时钟信号可别产生毛刺啊。要小心,异步复位可别有毛刺啊。快速FPGA中的触发器会对非常窄的毛刺信号作出反应。-异步设计中,设计者老要想着去消除时钟、异步复位信号以及锁存器使能端的毛刺,但这一点在异步设计中很困难,甚至不可能。异步设计可能会产生以下问 快递公司问题件快递公司问题件货款处理关于圆的周长面积重点题型关于解方程组的题及答案关于南海问题 :同步设计的一个简单原则:永远不要将组合逻辑产生的信号用作时钟、异步复位/置位。门产生的时钟有问题此例中,计数终点信号会产生毛刺,使用该信号作时钟会引起问题。-MSB布线更短,信号变化先到达与门。与门会“感知”到1111的中间态。由于与门为电平敏感,会输出高电平的毛刺,从而引起寄存器的误动作。布线更短此处会产生毛刺,并且与计数器的时钟无关MSB01111000计数器的操作为:011111111000因为MSB更快计数器flopMSB此处的与门为电平敏感相应的VHDL代码signalCounter:std_logic_vector(3downto0);signalTC:std_logic;signalflop:std_logic;process(Clk)beginifrising_edge(Clk)thenCounter<=Counter+1;endif;endprocess;TC<=‘1’whenCounter=“1111”else‘0’;--TC为组合逻辑输出process(TC)beginifrising_edge(TC)then--使用组合逻辑输出作时钟,是异步设计,禁止!!!flop<=…endif;endprocess;毛刺和同步设计组合逻辑的毛刺通常总是存在,难于甚至无法消除毛刺只有在异步设计中(连接到时钟、异步复位、锁存器的使能端)才存在问题在同步设计中,由于寄存器在时钟沿才会动作,只要能满足时延要求,就能确保采样到稳定正确的结果毛刺无法消除,但其造成的问题却可以消除采用同步设计并达到时延要求安全同步化异步输入一例——去抖动逻辑DQR异步输入系统时钟同步输入设备外围DQDQ延迟一个周期后才复位,确保D端输入脉冲至少有一个周期的宽度,没有中间态异步输入的信号变化时机和宽度不确定,有抖动(毛刺),不能直接被同步系统正确采样该逻辑确保能正确得到异步输入的上升沿。一个时钟周期内的多次电平变化被认为是抖动(毛刺),最后只得到一个上升沿。相应的VHDL代码signalAsynInput:std_logic;signalInputReg:std_logic;signalDelay:std_logic;signalSynInput:std_logic;process(SynInput,AsynInput)beginifSynInput=‘1’then--此置位为寄存器信号,为同步设计,可行InputReg<=‘0’;ifrising_edge(AsynInput)thenInputReg<=‘1’;endif;endprocess;process(Clk)beginifrising_edge(Clk)thenDelay<=InputReg;SynInput<=Delay;endif;DQ3AsyncRINPUTCLOCKCounterQ2Q1Q0DQ同步设计 方法 快递客服问题件处理详细方法山木方法pdf计算方法pdf华与华方法下载八字理论方法下载 中TC的生成和使用对照前面异步设计中TC生成和使用的例子TC相应的VHDL代码signalCounter:std_logic_vector(3downto0);signalTC:std_logic;signalflop:std_logic;process(TC,Clk)beginifTC=‘1’then--此复位为寄存器信号,为同步设计,可行Counter<=“0000”;TC<=‘-’;elsifrising_edge(Clk)thenCounter<=Counter+1;ifCounter=“1110”then--注意和异步设计中TC信号的比较--此处TC为寄存器输出TC<=‘1’;elseTC<=‘0’;endif;endif;endprocess;同步设计的更多例子(可行)DQ1DTCCounterINPUTCLOCKCounterQ0INPUTCLOCKDCEQRSDATA相应的VHDL代码例2signalCounter:std_logic_vector(3downto0);signalTC:std_logic;signals:std_logic;process(Clk)beginifrising_edge(Clk)thenifINPUT=‘1’thenCounter<=Counter+1;endif;ifTC=‘1’then--TC用在寄存器的CE端,为同步设计,可行s<=DATA;endif;endif;endprocess;TC<=‘1’whenCounter=“1111”else‘0’;--TC为组合逻辑输出例1signalCounter:std_logic_vector(1downto0);process(Clk)beginifrising_edge(Clk)thenifINPUT=‘1’andCounter/=“11”thenCounter<=Counter+1;endif;--组合逻辑用在寄存器的D端,--为同步设计,可行endif;endprocess;异步设计的更多例子(禁止)DQ1AsyncRDTCCounter这些例子有什么问题?INPUTCLOCKCounterQ0INPUTCLOCKDCEQRSDATA相应的VHDL代码例2signalCounter:std_logic_vector(3downto0);signalTC:std_logic;signals:std_logic;process(Clk)beginifrising_edge(Clk)thenifINPUT=‘1’thenCounter<=Counter+1;endif;endif;endprocess;TC<=‘1’whenCounter=“1111”else‘0’;--TC为组合逻辑输出process(TC)beginifrising_edge(TC)=‘1’then--TC用作寄存器的时钟,为异步设计,禁止!s<=DATA;endif;endprocess;例1signalCounter:std_logic_vector(1downto0);process(Counter,Clk)beginifCounter=“11”then--组合逻辑用作寄存器的异步复位,--为异步设计,禁止!!!Counter<=“00”;elsifrising_edge(Clk)thenifINPUT=‘1’thenCounter<=Counter+1;endif;endif;endprocess;二、速度中间态、时延和速度当寄存器间数据传递的时延超过一个时钟周期,下游寄存器不能在下一个时钟周期采样到本时钟周期给出的上游数据,出现错误。当时钟来临时,寄存器输入发生变化,会采样到中间态。-建立时间不能被满足,就会采样到中间态,最后的采样结果不确定。避免采样不到和采样到中间态的方法是满足时延要求系统中的最大时延决定了系统的速度,也决定了系统能正常工作的最大时钟频率。DCLKQCLKDQ当建立时间不够时,会采样到中间态,最后的采样结果不确定。建立时间DCLKQDCLKQ时延中包括时钟歪斜(Skew)下面逻辑中,数据时延很小(最大3.6ns),如果时钟歪斜较小,该逻辑可以跑200MHz以上。由于存在时钟歪斜,FlopB到FlopC的实际时延为3.3+12.1-3.6=11.8ns,在100MHz下就不能工作。计算速度时要考虑时钟歪斜的影响。使用全局驱动,可以减少时钟歪斜。DQINPUTCLOCKDQDQFlopC12.13.63.33.63.13.0FlopBFlopA时延级数怎么算?FPGA的时延通常布线占50%,逻辑占50%不要忘记了时钟到输出的时间(tco,输出时间)和时钟到建立的时间(tsu,建立时间)-逻辑时延级数总会包括这两级。还需要检查I/O的速度。DCEQRPDCEQRPXCV100-4的例子3级逻辑的速度有多快?布线时延大致可估算为与逻辑时延相等下面Slice的时延是Tilo,从F,G经过LUT输出的时延DCEQDCEQTcko+布线+Tilo+布线+Tilo+布线+Tilo+布线+Tdick1.372+1.057+0.738+1.057+0.738+1.057+0.738+1.405+0.765=8.927ns或者110MHz速度估计用逻辑时延作为网络时延的估计已知系统的时钟频率,可以估计允许的逻辑深度和功能需求相对照,修改设计以满足性能需要。在50MHz下使用XCV100-4的例子:时钟周期20ns一级布线时延-5ns(Tcko+Tnet+Tick)Tcko+Tick=2.871ns允许增加时延=15ns每增加一级的时延/1.5~2ns(Tilo+Tnet)Tilo=0.738ns允许增加的级数=7~10SlicesTckoTnetTiloTnetTiloTnetTickSliceSliceSliceSlice注意此Slice中使用了LUT,所以建立时间是Tick而不是Tdick,这种映射结果减少了一级布线时延对高扇出的网络使用全局驱动设计中,有高扇出的时钟使能、IOB三态以及其他信号吗?使用剩余的BUFG来驱动它们,以达到更小的歪斜和更高的性能使用BUFG,时钟和CE输入的歪斜可以小于1ns使用BUFG的方法,实例化BUFG,将相应信号连接上去DCEQRPCEorOEorRSTINPUTCLOCKBUFG使用全局复位有助于提高速度所有的触发器在上电时通过全局置位/复位(GSR)网络进行初始化你可以通过实例化(instantiating)STARTUP元件(primitive)访问GSR网络。断言(assert)GSR进行全局置位/复位GSR自动连接到所有CLB的触发器,使用专用的布线资源。使用GSR,可以节约通用布线资源,减小布线时延,提高系统速度不要连接GSR到触发器的复位、置位输入端任何信号(如内部信号、外部输入等)都可以连接到GSR,但该信号必须在设计中定义。尽可能使用全局复位限制使用非全局复位的异步复位的触发器数量非全局复位会使用额外的布线资源GR/GSRGTSCLKQ1Q2Q3DoneInSTARTUPQ4VHDL代码中的复位在下面的VHDL中,应该在Rst中对寄存器赋值,否则Rst信号会被综合成寄存器的CE端的一个输入。-浪费布线资源、增加逻辑级数,降低系统速度即使不关心寄存器的复位状态,也应该对其赋初值,可以赋初值为“-”,即“Donn’tcare”。这样,寄存器的复位端不会被使用,节约布线资源Process(Rst,Clk)beginifRst=‘1’thenDataValid<=‘0’;Data(31downto0)<=(others=>’-’);--这个语句一定要写,否则Rst信号会被综合成寄存器--Data<0>到Data<31>CE端的一个输入elsifrising_edge(Clk)thenDataValid<=f(x);Data<=g(y);--f(x),g(x)表示组合逻辑endif;endprocess;小技巧:对于逻辑向量std_logic_vector的赋值,可以使用“()”来表示。如:signalptr:std_logic_vector(14downto0);ptr<="000"&x"000";可以写成ptr<=(others=>'0');ptr(12downto7)<="------"可以写成ptr(12downto7)<=(others=>'-');ptr<="-00"&x"000";可以写成ptr<=(14=>'-',others=>'0');采用流水线逻辑来提高速度FPGA触发器资源丰富增加流水线逻辑级数,可提高系统速度DCEQRPDCEQRPDCEQRPDCEQRPDCEQRP25MHz50MHz4-5输入的逻辑函数对速度和密度最有利XilinxFPGA由四输入查找表(LUT)组成。一个查找表能实现其输入形成的任何逻辑函数相当于编址ROM,将输入作为地址,查找出函数结果。LUT能实现的函数只受输入数目限制,不受函数复杂度限制一个Slice中可用两个LUT和选择器实现5输入的任何逻辑。减少函数输入(扇入)来适合Slice,可以提高逻辑密度和速度。取反不耗费资源(free)。CLBLookupTable状态机的三种类型编码与速度二进制:状态序列如同计数器序列,S1=001,S2=010,S3=011,S4=100,etc…枚举:状态有指定的值,S1=100,S2=110,S3=101,S4=111,etc…OneHot(单热):每个状态只有一个寄存器有效,S1=00000001,S2=00000010,S3=00000100,etc…在状态机从当前状态跳到下一状态时,二进制和枚举类型有大量的反馈输入。这对CPLD(如XC9500)来说是比较合适的。在FPGA中,使用二进制和枚举类型可能会占用较少资源——但肯定比one-hot编码慢。-OneHot每个状态只需提供一位反馈输入状态机的速度对于较大的状态机,使用OneHot编码二进制或者枚举编码,对于较小的状态机合适。记住四输入查找表!状态机可能会有很多的扇入,和大量的反馈,对速度不利使用OneHot,并限制输入状态数,使输入限制到4-5,可以达到最高的速度。Input1Input3State4State6State191LUTDQfn1DQfn1DQfn1对高扇出网络,通过复制寄存器来提高速度高扇出网络(>16个负载)难于布线,而且较慢考虑在示意图或VHDL中复制资源来改进布线和速度Foundation工具不会自动完成这种功能将复制寄存器命名为_a,_b,_c,不要用1,2,3.这样,Foundation映射(map)时会更有效.计数终点信号提前译码以提高速度对大的计数器而言,译码产生计数终点信号需要逻辑级数较多-提前一个时钟周期译码计数终点信号,寄存后使用,可以提高速度,并保持时序关系不变。LDQ0Q1Q2Q3COD0D1D2D3CECDQCECDATA0DATA1DATA2DATA3ENABLECLOCK复制组合逻辑以提高速度如果LogicReplication选项被选中,Foundation会自动复制组合逻辑——速度/面积的交易通过复制组合逻辑,将逻辑合并入一个Slice中,减少了逻辑级数你的逻辑表达会影响映射结果。扇出大于1的网络可能在Slice之外。留意速度关键路径的映射结果O1I1O1I1N1N1必须输出到两个地方,所以O1需要两级逻辑复制第一个门,使得逻辑可以合并入一级逻辑中N1AN1B速度关键输入应在逻辑最后一级提供关键输入应该在逻辑最后一级提供关键输入为芯片、Slice、或者LUT提供的时延最大的输入在示意图中,将关键输入连接在逻辑最后一级在VHDL中,将关键输入放在if…elsif…链的第一级CLBCLBIN(Critical)FHI0(Critical)OUT使用进位逻辑提高速度和密度使用Slice中的进位逻辑可提高算术运算速度XCV100-4的例子(具体数据有待验证)16-bit加法器(不使用进位)10Slices&38Mhz16-bit加法器(使用进位)8Slices&63Mhz32-bit加法器(不使用进位)21Slices&27Mhz32-bit加法器(使用进位)17Slices&44Mhz通过进位的串行实现可以提高密度每个Slice可以实现2位进位链;例如:XCV100有30x20CLB,一条进位链最多可以实现40位的加法器,一个48位加法器需要两条链使用库中基于进位的宏(RPM)或者LogiBLOX许多库中的算术函数是RPMADDx加法器,ADSUx加法/减法器,CCx计数器COMPMCxmagnitude比较器RPM指相对定位宏通过RLOC属性指定布局相对位置。进位逻辑的相对布局需要使用垂直进位逻辑连接了解进位链流向XC4000E/L和Spartan/XL进位链流向为上下两个方向XC4000EX/XL/XV和Virtex器件的进位链流向只能向上XC4000ESpartan/XLXC4000EX/XL/XVVirtexLSBMSB编码:只有在必要时才使用二进制序列可以生成各种需要的序列,而不仅限于二进制使用预缩放(prescale)技术来提高速度低位(LSBs)翻转很快参见ApplicationNotesXAPP001andXAPP014如果要译码输出,使用格林(Gray)码计数器每次只翻转一位,可以避免译码产生毛刺如果只需要计数终点,考虑使用线性反馈移位寄存器(LFSR)提高速度。生成序列可以覆盖的地址空间为2n-1,全0不包含在序列中。n取不同值时,用来生成反馈位的两位不同,参见相关资料在可以采用任意规则序列的情况下,也可以使用LFSR(比如,FIFO)进位较慢的大计数器TCCE快速的小计数器10-bitSRQ0Q9Q6使用预缩放(Pre-scale)提高计数器速度计数器的速度由从LSB到MSB的进位延迟决定预缩放技术对较大的计数器特别有益-低位翻转很快,用低位的TC作为高位的CE,可以降低高位的时钟频率-使用TimeSpecs进行约束预缩放技术限制了载入时间,故计数器不可加载参考XAPP014快速的小计数器进位较慢的大计数器TCCEI/O速度:FPGA的建立时间TsuFPGA的输入输出也有时延要求。满足时延要求的FPGA建立时间由:全局时钟时延Tbufg、板上时延Tbrd和上游器件的输出时间Tco(up)决定。FPGA建立时间(Tsu)的计算公式:Tsu-fpga=Tcyc-Tco(up)-Tbrd+Tbufg可以使用“OFFSETIN”对Tsu进行约束DCEQ上游器件DCEQXCV400FPGAClock(Tcyc)Tco(up)TbrdTbufgTsuI/O速度:FPGA的输出时间TcoFPGA输出时间的计算公式:Tco=Tcyc-Tsu(down)-Tbrd-Tbufg使用“OFFSETOUT”对Tco进行约束DCEQXCV400FPGADCEQ下游器件Clock(Tcyc)TcoTbrdTbufgTsu(down)OPADOBUFFAST使用快歪斜率提高输出速度歪斜率控制输出速度缺省使用“slow”歪斜率,以降低噪音当速度重要时,使用“fast”歪斜率FAST是输出逻辑元件(primitive)的一个 参数 转速和进给参数表a氧化沟运行参数高温蒸汽处理医疗废物pid参数自整定算法口腔医院集中消毒供应 可以通过加入FAST约束实现。使用I/O寄存器提高输入和输出速度使用IOB中的I/O寄存器,可以提高输入和输出速度-输入或输出可以去除从内部布线的时延,IOB中的时延也更小-还可以节约寄存器资源实现选项中,选择“PackI/ORegisters/LatchesintoIOBsforInputsandOutputs”-输入若未寄存,直接扇入到组合逻辑,则不能map到IO寄存器中-输出若为组合逻辑输出,或者需要反馈为输入,则不能map到IO寄存器中DCEQDCEQI/OpadFrom:FPGAInto:FPGAOFFIFFOutputClockInputClock使用I/O寄存器的例子(FPGA-FPGA)DCEQ发送器(XCV100-4FPGA)DCEQ接收器(XCV100-4FPGA)使用IOB中寄存器的时延Tiockp+PCB网络时延+Tiopick5.6491.962=7.611不使用IOB中寄存器的时延(Tcko+Tnet+Tioop)+PCB网络时延+(Tiopi+Tnet+Tdick)(1.372+0.756+5.652)(0.989+1.930+0.728)7.7803.647=11.427输入速度:可编程的输入时延FPGA的输入通道上有一个可编程的时延可以用来在建立时间和保持时间之间达到妥协。可选择全部、部分或无时延缺省为全时延,以使保持时间的需求为0可在UCF中进行控制。DCEQXC4000FPGA输入时延BUFGXC4036XL-1的例子:时延情况建立时间保持时间全时延:Tsu=5.8nsTh=0ns部分时延:Tsu=4.8nsTh=1ns无时延:Tsu=0.9nsTh=4.1nsI/O速度的其他提示XC4000-13,36,62XL是turboboosted。使用BUFG,可提高pintopin时延三、资源资源使用量是指FPGA使用了的百分率在宏、库、以及XAPPapplicationnotes中找到可比较的函数来估计资源使用量或者,使用别的设计来估计器件使用率快速实现,然后查看MAP报告选择“Implementation/ViewReportFiles/Mapreport”Slices,IOBs,BlockRAMs,以及其他部件分别列出,并给出使用百分率。最后给出相当于ASIC的门数资源估计DesignSummary--------------Numberoferrors:0Numberofwarnings:644NumberofSlices:1,147outof1,20095%SliceFlipFlops:7354inputLUTs:1,046(1usedasaroute-thru)DualPortRAMs:312NumberofSlicescontainingunrelatedlogic:0outof1,1470%NumberofbondedIOBs:85outof9886%IOBFlipFlops:68NumberofBlockRAMs:10outof10100%NumberofGCLKs:2outof450%NumberofGCLKIOBs:2outof450%NumberofDLLs:1outof425%NumberofStartups:1outof1100%NumberofRPMmacros:9Totalequivalentgatecountfordesign:224,805AdditionalJTAGgatecountforIOBs:4,176可以把查找表用作RAM使用CoreGen或LogiBLOX,可以用LUT生成RAM选择功能-单/双端口-同步/异步-深度扩展时,基于BUFT还是LUT选择大小-没有浪费的资源-可扩展为需要的大小选择位置-布置在基片的任何地方-邻近关键电路以提高速度选择编程方法-通过启动时的比特流-通过设计中的操作易于使用AddressDataWEDistributedRAMClockData2Address2OptionalDualPort使用RAM作状态寄存器可以节约资源和触发器比,Slice密度提高为16:1而且FPGA的布线更容易例如10个16位可读写状态寄存器需要:160个寄存器,即80个Slice使用RAM,同样10个状态寄存器需要:16个4输入LUT,即8个Slice也可以用RAM实现移位寄存器vs.寄存器.RAM四、其他IPADIBUFIN1_PADIN1IOBIN1_PAD设置歪斜率以控制输出速度缺省歪斜率较慢,可减小噪音当速度更重要时,使用快速歪斜率。设置输出逻辑元件的FAST参数对未使用的IOB,自动上拉未使用的IOB的输出自动无效上拉(PULLUP)或下拉(PULLDOWN)元件可以指定到未使用的IOB上。设计的输入不应该悬空。加一个上拉到悬空的输入上,可以减小功耗和噪音IOB包含一个三态门OBUFT,可以实现双向信号。IOB由PAD和功能元件之间的网络名命名IOBlock的使用STARTUPGTS输出三态控制输出控制中的取反不耗费资源一个专用的全局网络也能进行三态控制通过STARTUP元件访问在配置过程中,所有的I/O都处于三态。OEOBUFETOBUFTOET
本文档为【VHDL设计风格和实现】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
个人认证用户
DNSJDS
暂无简介~
格式:ppt
大小:426KB
软件:PowerPoint
页数:51
分类:
上传时间:2023-03-04
浏览量:0