下载
加入VIP
  • 专属下载特权
  • 现金文档折扣购买
  • VIP免费专区
  • 千万文档免费下载

上传资料

关闭

关闭

关闭

封号提示

内容

首页 清华计算机组成与结构(基本概念)

清华计算机组成与结构(基本概念).doc

清华计算机组成与结构(基本概念)

黄子鸿
2017-09-26 0人阅读 举报 0 0 暂无简介

简介:本文档为《清华计算机组成与结构(基本概念)doc》,可适用于IT/计算机领域

清华计算机组成与结构(基本概念)计算机系统结构计算机组成计算机实现Amdahl定律MIPSMFLOPSCPI冯诺依曼结构数据表示数据类型浮点数浮点数的误差相对误差浮点数表示方式的效率编址单位寻址方式Huffman编码法RISCCISC存储系统虚拟存储系统并行存储器随机算法先进先出算法近期最少使用算法最久没有使用算法最优替换算法Cache系统全相联映象方式直接映象方式组相联映象段相联映象Cache系统的加速比Cache系统的加速比SPCache一致性输入输出设备程序控制输入输出方式中断输入输出方式DMA方式中断源中断优先级中断响应时间中断向量法中断现场的保存和恢复中断屏蔽指令级并行先行控制缓冲技术预处理技术先行指令缓冲栈先行读数栈后行写数栈先行操作栈RR型指令RX型指令RS型指令缓冲深度相关数据相关指令相关主存操作数相关通用寄存器数据相关变址相关控制相关转移预测技术流水线处理机时空图线性流水线非线性流水线流水线的级别处理机级流水线功能部件级流水线处理机间流水线单功能流水线多功能流水线静态流水线动态流水线吞吐率加速比效率预约表启动距离禁止启动距离启动循环恒定循环禁止向量平均启动距离冲突向量简单循环基本块局部相关全局相关顺序流动乱序流动数据重定向动态转移预测技术向量处理机向量循环和分段开采链接技术向量递归最大性能R半性能向量长度n互连网络互连函数网络规模结点度距离网络直径等分宽度结点间的线长对称性频宽传输时间"飞行"时间传输时延发送方开销接收方开销静态互连网络动态互连网络线路交换存储转发寻径虚拟直通虫蚀寻径虚拟通道单播(unicast)选播(multicast)广播(broadcast)会议(conference)SIMD计算机分布式存储器结构共享存储器结构阵列控制器CU总线公共数据总线CDB模式位线指令控制线多处理机共享存储多处理机分布存储多处理机SMPSMPMPP机群系统"计算机系统结构"这个名词来源于英文computerarchitecture,也有译成"计算机体系结构"定义为由程序设计者所看到的一个计算机系统的属性即概念性结构和功能特性。计算机组成是计算机系统结构的逻辑实现包括机器内部的数据流和控制流的组成以及逻辑设计等。计算机实现是指计算机组成的物理实现。它包括处理机、主存等部件的物理结构器件的集成度和速度信号传输器件、模块、插件、底板的划分与连接专用器件的设成一个两层存储系统的容量设计。第一层M是高速缓存其容量有三种选择:K字节、K字节和K字节。第二层M是主存储器其容量为M字节。分别令c和c是每个字节的成本t和t是M和M的存取时间。假定c=c和t=t三种容量高速缓存的命中率分别为和。()在t=ns的条件下三种高速缓存的平均存取时间ta是多少?(注意:t是从CPU到M的时间。t是从CPU到M的时间不是从M到M的时间)。()如果c=美圆K字节试说明整个存储器层次结构的平均字节成本。对三种存储器的设计作一个比较并分别按平均成本和平均存取时间指出它们性能的排列次序。再根据平均成本和平均存取时间的乘积选择最佳设计。有个存储模块每个存储模块的容量为M字节字长为位。现在要用这个存储器模块构成一个主存储器有如下几种组织方式:方式:个存储器模块采用高位交叉方式构成存储器。方式:个存储器模块构成并行访问存储器。方式:个存储器模块采用低位交叉构成存储器。方式:路高位交叉路低位交叉构成存储器。方式:路高位交叉路低位交叉构成存储器。方式:路并行访问路低位交叉构成存储器。()写出各种存储器的地址格式。()比较各种存储器的优缺点。()不考虑访问冲突计算各种存储器的频带宽度。()画出各种存储器的逻辑示意图。一个虚拟存储器按字节编址最多有个用户每个用户最多要用页每页K字节。主存容量M字节快表按地址访问共个存储字快表地址码经散列变换得到为减少散列冲突快表分为两组有两套独立的相等比较电路。()写出多用户虚地址和主存地址的格式并标出各字段的长度。()散列变换部件的输入位数和输出位数各为多少?()每个相等比较电路的位数是多少?()快表每个存储字的总长度为多少位?为哪几个字段?各字段的长度为多少位?画出多用户虚地址经快表变换成主存地址的逻辑示意图。一个程序由个虚页组成采用LFU替换算法在程序执行过程中依次访问的页地址流如下:P,P,P,P,P,P,P,P,P,P,P,P()可能的最高页命中率是多少?()至少要分配给该程序多少个主存页面才能获得最高的命中率?()如果在程序执行过程中每访问一个页面平均要对该页面内的存储单元访问次求访问存储单元的命中率。假设在一个采用组相联映象方式的Cache中主存有B~B共块组成Cache有组每组块每块的大小为个字节采用LFU块替换算法。在一个程序执行过程中依次访问这个Cache的块地址流如下:BBBBBBBBBBBB()写出主存地址的格式并标出各字段的长度。()写出Cache地址的格式并标出各字段的长度。()画出主存与Cache之间各个块的映象对应关系。()如果Cache的各个块号为C、C、C和C列出程序执行过程中Cache的块地址流情况。()如果采用FIFO替换算法计算Cache的块命中率。()采用LFU替换算法计算Cache的块命中率。()如果改为全相联映象方式再做()和()可以得出什么结论?()如果在程序执行过程中每从主存装入一块到Cache则平均要对这个块访问次。请计算在这种情况下的Cache命中率。什么叫存储系统?什么叫虚拟存储器?试述Cache加速比的概念以及提高Cache加速比的方法。什么叫Cache一致性问题?如何解决?列举基本输入输出方式并说明其各自特点。常用的直接存储器访问(DMA)方式有哪几种?它们的工作原理和主要优缺点各是什么?从一个中断源发出服务请求到这个中断服务请求全部处理完成程序返回到中断点所经过的过程称为中断处理过程。在一次完整的中断处理过程中主要做哪些工作?其中哪些必须用硬件实现?哪些必须用软件实现?哪些既可以用硬件实现也可以用软件实现?一个字节多路通道连接有台设备它们的数据传输率如下表所示。设备的数据传输率设备名称DDDDD数据传输速率(KBs)服务优先级(最高)()这个字节多路通道的实际工作流量。()为了使通道能够正常工作请设计通道的最大流量和工作周期。()当这个字节多路通道工作在最大流量时台设备都在时刻同时向通道发出第一次传送数据的请求并在以后的时间里按照各自的数据传输速率连续工作。画出通道分时为各台设备服务的时间关系图并计算这个字节多路通道处理完各台设备的第一次数据服务请求的时刻。中断屏蔽的作用及其实现方法。根据多台外围设备共享通道的不同情况可将通道分为哪几种类型?各种类型的通道的工作原理是什么?什么是通道流量?各种通道的流量是如何计算的?指令执行过程采用顺序方式、一次重叠方式和流水线方式它们的主要差别是什么?各有什么优缺点?假设一条指令的执行过程分为"取指令"、"分析"和"执行"三段每一段的执行时间分别为Δt、Δt和Δt。在下列各种情况下分别写出连续执行n条指令所需要的时间表达式。()顺序执行方式。()仅"取指令"和"执行"重叠。先行控制方式。一条线性流水线有个功能段组成每个功能段的延迟时间都相等都为Δt。开始个Δt每间隔一个Δt向流水线输入一个任务然后停顿个Δt如此重复。求流水线的实际吞吐率、加速比和效率。用一条个功能段的浮点加法器流水线计算。每个功能段的延迟时间均相等流水线的输出端和输入端之间有直接数据通路而且设置有足够的缓冲寄存器。要求用尽可能短的时间完成计算画出流水线时空图并计算流水线的实际吞吐率、加速比和效率。一条线性静态多功能流水线由个功能段组成加法操作使用其中的、、、功能段乘法操作使用其中的、、、功能段每个功能段的延迟时间均相等。流水线的输入端与输出端之间有直接数据通路而且设置有足够的缓冲寄存器。现在用这条流水线计算:画出流水线时空图并计算流水线的实际吞吐率、加速比和效率。在下列不同结构的处理机上运行×的矩阵乘法C=A×B计算所需要的最短时间。只计算乘法指令和加法指令的执行时间不计算取操作数、数据传送和程序控制等指令的执行时间。加法部件和乘法部件的延迟时间都是个时钟周期另外加法指令和乘法指令还要经过一个"取指令"和"指令译码"的时钟周期每个时钟周期为nsC的初始值为""。各操作部件的输出端有直接数据通路连接到有关操作部件的输入端在操作部件的输出端设置有足够容量的缓冲寄存器。(a)处理机内只有一个通用操作部件采用顺序方式执行指令。(b)单流水线标量处理机有一条两个功能的静态流水线流水线每个功能段的延迟时间均为一个时钟周期加法操作和乘法操作各经过个功能段。(c)多操作部件处理机处理机内有独立的乘法部件和加法部件两个操作部件可以并行工作。只有一个指令流水线操作部件不采用流水线结构。(d)单流水线标量处理机处理机内有两条独立的操作流水线流水线每个功能段的延迟时间均为一个时钟周期。(e)超标量处理机每个时钟周期同时发射一条乘法指令和一条加法指令处理机内有两条独立的操作流水线流水线的每个功能段的延迟时间均为一个时钟周期。(f)超流水线处理机把一个时钟周期分为两个流水级加法部件和乘法部件的延迟时间都为个流水级每个时钟周期能够分时发射两条指令即每个流水级能够发射一条指令。(g)超标量超流水线处理机把一个时钟周期分为两个流水级加法部件和乘法部件延迟时间都为个流水级每个流水级能够同时发射一条乘法指令和一条加法指令。在采用乱序流动方式的处理机中可能有哪几种数据相关?如何解决?超标量处理机和超流水线处理机的异同点。多流水线调度主要有哪些方法?它们各自的特点如何?什么是向量平衡点?有哪些技术可以提高向量处理机的性能?什么是链接技术?什么是分段开采技术?什么是向量递归技术?处理稀疏矩阵有哪些方法?在CRAY机上V为向量寄存器设向量长度均为s为标量寄存器所用浮点功能执行部件的执行时间分别为:加法需拍相乘需拍从存储器读数需拍求倒数近似值需拍打入寄存器及启动功能部件(包括寄存器)各需拍。问下列各指令组中的哪些指令可以链接?哪些指令可以并行执行?试说明其原因并分别计算出各指令组全部完成所需的拍数。()V存储器()VV*VVVVV存储器VV*VVVV()V存储器()V存储器VVVVVVV*VVVVVVVVV*V()V存储器()V存储器VVVVVVVV*VssssssVV*V()V存储器()V存储器VVVVVVVV*VVV*V存储器VVV*V什么是互连函数?如何表示?什么是结点度?什么是等分宽度?试述静态互连网络和动态互连网络的概念以及各自特点。设个处理机编号分别为、、…、采用单级互连网络。当互连函数分别为:()Cube()PM()PM()Shuffle()Shuffle(Shuffle)时第号处理机各与哪一个处理机相连?列举消息寻径的种方法并指出它们各自的优缺点。如何解决包冲突?并行处理机从结构上可以分为哪几类?并行处理机与流水线向量处理机的优缺点。试在含一个PE的SISD机和在含m个PE的且连接成一线性环的SIMD机上计算下列求内积的表达式。假定完成每次ADD操作需个单元时间完成每次MULTIPLY操作需个单位时间沿双向环在相零PE间移数需个单位时间。()SISD计算机上计算s需多少时间?()SIMD计算机上计算s需多少时间?()用SIMD机计算s相对于用SISD机计算的加速比是多少?MIMD处理机与SIMD处理机相比有哪些特点?计算机系统结构作为一门学科主要研究软件、硬件功能分配和对软件、硬件界面的确定即哪些功能由软件完成哪些功能由硬件完成。在计算机技术中一种本来是存在的事物或属性但从某种角度看似乎不存在称为透明性现象。通常在一个计算机系统中低层机器级的概念性结构和功能特性对高级语言程序员来说是透明的。系统中某一部件由于采用某种更快的执行方式后整个系统性能的提高与这种执行方式的使用频率或占总执行时间的比例有关。Amdahl定律定义了由于采用特殊的方法所能获得的加速比的大小。Amdahl定律中加速比与两个因素有关:一个是计算机执行某个任务的总时间中可被改进部分的时间所占的百分比即记为Fe它总小于。另一个是改进部分采用改进措施后比没有采用改进措施前性能提高倍数即记为Se它总大于。第二级的每条指令需要N条第一级指令进行解释所以执行一条第二级指令所需要的时间为:同理有:要考虑的问题主要是相同系列计算机之间的兼容问题即从系统结构的角度去看他们应该是相同的因此我们主要看这些措施是否对系统结构会有影响另外我们也要考虑这些措施是否真的能够达到他的目的。我们可以看到对系统程序员来说()、()、()、()是需要考虑的也就是说对他们是不透明的所以这些措施是行不通的而()、()、()、()则可以考虑。对该应用程序来说在90%的时间里只有50000*10%=5000条指令在运行其他的45000条指令的平均运行次数很少因此我们可以假设对他们来说Cache总是缺失的.对频繁访问的这10%的指令我们假设他们访问均匀这样Cache的行为便可以认为是均匀覆盖了这些指令.所以Cache的命中率为:我们首先对新的存储系统的性能做以下的假设:在Cache不命中的情况下对Cache的访问不会额外损失时间即:首先决定Cache是否命中所用的时间可以忽略其次在从主存向Cache传输的同时数据也被传输给使用部件(不需要再从Cache中读取)。这样新的存储系统中平均存取时间分为两个部分:其中R表示各种情况所占的比例。根据加速比的计算公式,设可向量化比例为P则加速比的计算公式表示为:vector因此加速比和可向量化比例图如下:将数据代如上面的公式有:解之有:在计算机系统中数据的类型有多种多样如文件、图、表、树、阵列、队列、链表、栈、向量、串、实数、整数、布尔数、字符等。所有这些数据类型中用硬件实现叫做数据表示用软件实现叫做数据结构。确定哪些数据类型用数据表示来实现的原则主要有三个一是缩短程序的运行时间二是减少CPU与主存储器之间的通信量三是这种数据表示的通用性和利用率。在尾数采用补码、小数表示且p=阶码采用移码、整数表示且q=尾数基r为阶码基r为的情况下:me()最大尾数为:()最小正尾数为:()最小尾数为:()最大负尾数为:()最大阶码为:()最小阶码为:()最大正数为:()最小正数为:()最大负数为:()最小负数为:()浮点零为:通过上面的计算我们可以知道浮点零的范围如下:()表数精度为:()表数效率为:()能表示的规格化浮点数个数为:为了方便和提高精度我们取尾数和阶码的基都为即:且且根据表示数精度的要求:于是可以取p=根据表示数范围的要求:即因此可以取q=数据格式可以表示如下(尾数采用隐藏位):-位位位位)-符号阶符阶码尾数能够表示的最大负数:--()能够表示的最大正数:(-表示数的精度:表数效率:。我们可以计算出数据的大致数量:条指令访问的数据总数为*=个每个数据平均访问次所以不同的数据个数为:对于A处理机所用的存储空间的大小为:对于B处理机指令字长由位变为了位(条数由减少到)这样所用的存储空间的大小为:由此我们可以看出由于数据的平均访问次数要大于指令所以通过改进数据的格式来减少指令的长度可以减少总的存储空间大小。()指令号出现的频率编码指令号出现的频率编码这样采用Huffman编码法得到的操作码的平均长度为:H=×()×××()==()设计位字长的寄存器寄存器型变址寻址方式指令如下:因为只有个通用寄存器所以寄存器地址需位操作码只有两位设计格式如下:操作码OP源寄存器R目的寄存器R三条指令的操作码分别为设计位字长的寄存器存储器型变址寻址方式指令如下:操作码OP通用寄存器变址寄存器偏移地址四条指令的操作码分别为()首先我们可以根据指令地址的数量来决定各种指令在指令空间上的分布:如果我们按照从小到大的顺序分配操作码这样按照指令数值从小到大的顺序分别为双地址指令、单地址指令和零地址指令。其次可以根据指令的条数来大致的估计操作码的长度:双指令条需要位指令来区分剩下的位指令平均分给单地址和零地址指令每种指令可以用位指令来区分这样各指令的条数为:双地址指令条地址码:~单地址指令=条地址码:~零地址指令条地址码:~。()与上面的分析相同可以得出答案:双地址指令条地址码:~单地址指令*=条~~零地址指令条~~。寻址技术是指寻找数据及其它信息的地址的技术它是软件与硬件的一个主要分界面。寻址技术要研究的主要内容包括编址方式、寻址方式和定位方式等。寻址技术研究的对象主要有寄存器、主存储器、堆栈和输入输出设备等其中以面向主存储器的寻址技术为主要研究对象。RISC和CISC是指令系统优化设计的两个截然相反的方向。CISC是指复杂指令系统计算机它的设计思想是增强指令的功能设置一些功能复杂的指令把一些原来由软件实现的常用的功能改用硬件的指令系统来实现。RISC是指精简指令系统计算机它的设计思想是尽量简化指令功能只保留那些功能简单能在一个节拍内执行完成指令较复杂的功能用一段子程序来实现。()延时转移技术:为避免由于转移指令造成的流水线断流在转移指令之后插入一条有效的指令而转移指令好象被延迟执行了把这种技术称为延迟转移技术。()指令取消技术:为避免由于转移指令造成的流水线断流用转移指令和数据变换指令决定下面待执行的指令是否应该取消。如果指令被取消其效果相当于执行了一条空操作指令不影响程序的运行环境。()重叠寄存器窗口技术:在处理机中设置一个数量比较大的寄存器堆并把它划分成很多个窗口。每个过程使用其中相邻的三个窗口和一个公共的窗口而在这些窗口中有一个窗口是与前一个过程共用还有一个窗口是与下一个过程共用的。与前一过程共用的窗口可以用来存放前一过程传送给本过程的参数同时也存放本过程传送给前一过程的计算结果。同样与下一过程共用窗口可以用来存放本过程传送给下一过程的参数和存放下一过程传送给本过程的计算结果。()指令流调整技术:用优化编译器分析程序的数据流和控制流当发现指令流有断流可能时要调整指令序列。对有些可以通过变量重新命名来消除的有数据相关要尽量消除。这样可以提高流水线的执行效率缩短程序的执行时间。()逻辑实现以硬件为主固件为辅:RISC要求主要指令能在单周期内执行完成采用微程序技术是不可能做到的。因此RISC必须主要采用硬联逻辑来实现指令系统。对于那些必须的复杂指令也可用固件(微程序技术)实现。()整个存储系统的平均成本为:不难看出:当ss非常小的时候上式的值约等于c。即:ss时整个存储器系统的平均成本会接近于c()ta=ht(h)ht因为h等于所以ta=ht(h)t()()()将数值代入E和h的关系式可以算得h>。()通过缓冲的方法我们需要将命中率从提高到。假设对存储器的访问次数为n缓冲块的大小为m。那么缓冲的次数为n次所以通过对M的命中率来列等式有:解这个方程有:所以要达到()中的访问效率缓冲的深度应该至少是(个数据单位)。=ht(h)t=(h)t所以at()t=(*)*=nsat=(*)*=nsat=(*)*=nsa()因为平均字节成本ca为:将各个值代入可得:c=美元K字节c=美元K字节c=美aaa元K字节。()按照平均成本来说c<c<c按照平均存取时间来说t<t<t。如aaaaaa果根据平均成本和平均存取时间的乘积(c*t=,c*t=,aaaa*t=)来计算的话则第三种方案是最佳的。aa()各种存储器的地址格式如下:c方式:个模块高位交叉方式:个模块并行访问方式:个模块低位交叉方式:路高位交叉路低位交叉个存储模块每个组成一个大的模块:方式:路高位交叉路低位交叉个存储模块每个组成一个大的模块:方式:路并行访问路低位交叉()这几种存储器都能够并行工作因此可以提高频带宽度。总的来说并行访问存储器的优点是实现简单、容易缺点是访问冲突大高位交叉访问存储器的优点是扩充方便缺点是访问效率不高低位交叉访问存储器可以用分时的方法来提高速度但扩充不方便。()各种存储器的频带宽度和他们的工作频率有关在不考虑冲突的情况下如果有足够多的独立控制电路和寄存器那么他们的频带宽度是相同的。()存储器的逻辑示意图略。注意并行访问存储器和低位交叉访问存储器很相象只不过并行访问存储器使用存储模块号(存储体号)来对已经输出的结果进行选择而低位交叉访问存储器则用来生成对存储模块(存储体)的片选信号他通过流水的方式来提高访问的速度。()虚地址的长度为位格式如下:主存的地址需要位:格式如下()由于用户号和虚页号共有位所以散列变换的输入需要位而输出的为快表的地址如果我们假设快表是按照字寻址那么是位(快表分为两组每组个存储字)。()相等比较电路需要比较多用户虚页号以消除散列冲突所以相等比较电路需要位。()快表中需要存储两项内容:多用户虚页号和实页号。多用户虚页号为位实页号为位共有位。()在分配的主存页面数目大于等于的情况下这时除了第一次调入不命中以后的访问均命中可以达到最高的页面命中率:实际命中的次数为次所以可能达到的最高页面命中率为:()由于在页面数大于等于的情况下肯定可以达到最高命中率所以我们来看页面数小于时能否达到该命中率:分配的主存页面数等于时调度过程如下:**LFU命中次算法******调调调调命调命命命命命命入入入入中入中中中中中中此时也可以达到最高命中率分配的主存页面等于时调度过程如下:****LFU命中次算法*****调调调调命调调调命调调命入入入入中入入入中入入中此时不能达到最高命中率。所以至少应该分配个主存页面。()我们假设程序每次只访问一个存储单元这样对每一个特定页面的访问过程可以描述如下:因为第一次总是不命中的而平均起来随后的次总是命中的然后再次被调出主存并再次重复先前的过程。所以访问存储单元的命中率为:()主存共有个区每个区组每个组块每块个字节如果按字节寻址那么主存需要位如下图所示:()Cache地址需要位如下图所示:()对应关系参见教材图其中(BB)(BB)对应(CC)而(BB)(BB)对应(CC)。()对应于主存块地址流:BBBBBBBBBBBB一种可能的Cache的块地址流如下:CCCCCCCCCCCC()采用FIFO算法的调度图如下:BBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBFIFO命中次BBBBBBBBBBB算法调调调调命命调调调调调命入入入入中中入入入入入中块命中率为:BBBBBBBBB()采用LFU算法的调度图如下:BBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBBB调调调调命命调调命调调命LFU命中次入入入入中中入入中入入中算法块命中率为:()改用全相联以后当采用FIFO算法时:BBBBBBBBBBBBBBBBBBBBBBBFIFO命中次BBBBBBBBBB算法BBBBBBBBB调调调调命命调调命调调命入入入入中中入入中入入中块命中率为:当采用LFU算法时:BBBBBBBBBBBBBBBBBBBBBBBLFU命中次BBBBBBBBBB算法BBBBBBBBB调调调调命命调调命调调调入入入入中中入入中入入入块命中率为:可以看出对不同的算法全相联并不总是能够提高命中率。()我们考虑的是对Cache中存储单元的命中率假设平均访问次数次中包含第一次的访问同题()的分析我们可以得到命中率为:两个或两个以上速度、容量和价格各不相同的存储器用硬件、软件、或软件与硬件相结合的方法连接起来成为一个系统。这个系统对应用程序员透明并且从应用程序员看它是一个存储器这个存储器的速度接近速度最快的那个存储器存储容量与容量最大的那个存储器相等或接近单位容量的价格接近最便宜的那个存储器这就叫存储系统。虚拟存储器又称虚拟存储系统或虚拟存储体系。虚拟存储器由主存储器和联机工作的外部存储器共同组成。在目前的计算机系统中主存储器通常用动态随机存储器(SRAM)实现它的存储容量相对比较小速度比较快单位容量的价格比较贵。联机工作的外部存储器通常为磁盘存储器它的存储容量很大与主存储器相比速度很低单位容量的价格很便宜。这两个存储器在硬件和系统软件的共同管理下对于应用程序员可以把它们看来是一个单一的存储器是一个存储容量非常大的主存储器。主存储器的访问周期T则Cache系统的加速比CmS假设(SpeedupCache)可以定义为的访问周期为:TP加速比越高说明Cache系统的等效访问速度与Cache的速度越接近。从这个关系式看到Cache系统的加速比S是命中率H和主存周期Tm与CacheP周期T比值的函数。在Cache系统中主存储器的访问周期Tm和Cache的访C问周期T由于受所用器件的限制通常是一定。因此要提高Cache系统的加速C比S最好的途径是提高命中率H。P在一段时间内主存某单元中的内容与Cache对应单元中的内容可能不相同。这样就造成Cache与主存的不一致问题。解决Cache与主存的不一致性问题首先要选择合适的Cache更新算法。主要有两种Cache更新算法写直达法和写回法。写回法是指CPU在执行写操作时被写数据只写入Cache不写入主存。仅当需要替换时才把已经修改过的Cache块写回到主存。写直达法是指在CPU在执行写操作时必须把数据同时写入Cache和主存。.程序控制输入输出方式。完全由CPU控制的输入输出方式外围设备每发送或接收一个数据都要由CPU执行相应的指令才能完成与CPU异步工作适合于连接低速外围设备。.中断输入输出方式。当出现来自系统外部机器内部甚至处理机本身的任何例外的或者虽然是事先安排的但出现在现行程序的什么地方是事先不知道的事件时CPU暂停执行现行程序转去处理这些事件等处理完成后再返回来继续执行原先的程序与CPU并行工作数据的输入和输出都要经过CPU一般用于连接低速外围设备。.直接存储器访问方式(DMA)。外围设备与主存储器之间建立直接数据通路传输数据不需要CPU干预计算机系统以主存储器为中心主存储器既可以被CPU访问也可以被外围设备访问在外围设备与主存储器之间传送数据不需要执行程序主要用来连接高速外围设备。常用的DMA方式有如下三种:.周期窃取方式在每一条指令执行结束时CPU测试有没有DMA服务申请如果有则CPU进入一个DMA周期。在DMA周期中借用CPU完成上面所列出的DMA工作流程。包括数据和主存地址的传送交换个数计数器中的内容减""主存地址的增值及一些测试判断等。周期窃取方式的优点是硬件结构很简单比较容易实现。缺点是在数据输入或输出过程种实际上占用了CPU的时间。.直接存取方式DMA控制器的数据传送申请直接发往主存储器。在得到主存储器的响应之后整个DMA工作流程全部在DMA控制器中用硬件完成。直接存取方式的优点是数据输入或输出过程没有占用CPU的时间。缺点是硬件结构很复杂成本较高。.数据块传送方式在设备控制器中设置一个比较大的数据缓冲存储器一般要能够存放下一个数据块。与设备介质之间的数据交换在数据缓冲存储器中进行。设备控制器与主存储器之间的数据交换以数据块为单位并采用程序中断方式进行。数据块传送方式实际上并不是DMA方式只是它在每次中断输入输出过程中是以数据块为单位获得或发送数据的。在一次完整的中断处理过程中主要做以下工作:.判断现行指令执行结束且没有更紧急的服务请求。.关CPU中断CPU不能再响应其它任何中断源的中断服务请求.撤消设备的中断服务请求如果这个中断源的中断请求不撤消的话那么在CPU开中断后它必然将再次请求中断服务.保存硬件现场主要指保存处理机状态字PSW及堆栈指针SP等中的内容.识别中断源.改变设备的屏蔽状态.转向中断服务程序入口一般还要在中断服务程序中通过软件才能找到具体中断源的中断服务程序入口.保存软件现场主要指保存将要被中断服务程序破坏的通用寄存器中的内容等.开CPU中断CPU可以响应其它更高级中断源的中断服务请求中断源之间可实现中断嵌套.中断服务.关CPU中断CPU不响应任何中断源的中断服务请求。在下一次开CPU中断之前正在运行的程序不允许被中断.恢复软件现场恢复被中断服务程序破坏的通用寄存器中的内容等.恢复屏蔽状态.恢复硬件现场包括恢复处理机状态字PSW及堆栈指针SP等中的内容等准备返回中断点.开CPU中断如果用硬件实现这条指令必须延迟执行要在程序回到中断点之后才能实际打开CPU的中断.返回到中断点其中"保存中断点"和"转向中断服务程序入口"这两个功能是必须用硬件来实现的。"中断服务"和"返回到中断点"这两个功能必须用软件来实现。其他功能既可以用软件又可以用硬件实现。()我们道把数据传输速率理解为设备的数据产生速率即设备对应的子通道数据传输速率那么通道的实际流量等于各子通道的流量之和:KBs。()我们取流量上限为KBs则工作周期为ms。()通道分时工作的时间关系图如下所示。通道处理完各设备第一次数据服务请求的时刻分别为:ms、ms、ms、ms、ms。台设备向通道请求传送数据和通道为它们服务的时间关系设置中断屏蔽有如下三个用处:()在中断优先级已经由硬件确定了的情况下改变中断源的中断服务顺序。()决定设备是否采用中断方式工作。()在多处理机系统中可以通过中断屏蔽把对外围设备的输入输出服务工作分配到各个处理机中。中断屏蔽的实现方法主要有两种:()每个或每级中断源设置一个中断屏蔽位的方法。中断屏蔽位可以分布在各个中断源中也可以集中在处理机中。在为每个中断源或每级中断源设置一个中断屏蔽位的方法中中断优先级实际上只在处理机响应中断源的中断服务请求时使用即在所有请求中断服务的中断源中选择出一个优先级最高的中断源首先为它服务。而处理机在执行中断源的中断服务程序时并没有优先级的区分。()改变处理机优先级方法。中断优先级不仅在处理机响应中断源的中断服务请求时使用而且为每个中断源的中断服务程序也赋予同样的中断优先级。正常工作的情况在各个中断源的处理机状态字中设置的中断优先级应该与这个中断源本身的硬件中断优先级相同。这时处理机响应中断源的中断服务请求和完成中断服务的过程将严格按照中断源的硬件中断优先级进行。如果要改变中断源的中断服务顺序即在有多个中断源同时请求中断服务时让某些硬件中断优先级较低的中断源先得到处理机的服务可以通过修改相关中断源的处理机状态字来实现。.字节多路通道。字节多路通道(ByteMultiplexorChannel)是一种简单的共享通道主要为多台低速或中速的外围设备服务。字节多路通道采用分时方式工作依靠它与CPU之间的高速数据通路分时为多台设备服务。字节多路通道包含有多个子通道每个子通道连接一个设备控制器。每个子通道最少需要有一个字节缓冲寄存器一个状态控制寄存器以及指明固定地址的少量硬件。当通道在逻辑上与某一台设备连接时就根据主存数据缓冲区地址访问主存储器读出或写入一个字节并将交换字节个数减将主存数据缓冲区地址增量至下一个数据的地址。在这些工作都完成之后就将通道与该设备在逻辑上断开。.选择通道。选择通道(SelectorChannel)在一段时间内单独为一台外围设备服务但在不同的时间内仍可以选择不同的设备。一旦选中某一设备通道就进入"忙"状态直到该设备的数据传输工作全部结束为止。选择通道可以认为是只有一个以成组方式工作的子通道只有一套完整的硬件它逐个为几台物理上连接的高速外围设备服务。.数组多路通道。数组多路通道每次选择一个高速设备后传送一个数据块(对于磁盘和磁带等磁表面存储器数据块大小通常为个字节)并轮流为多台外围设备服务。数组多路通道可以被看作是以成组方式工作的高速多路通道。通道流量又称为通道吞吐率通道数据传输率等它是指一个通道在数据传送期间单位时间内能够传送的最大数据量一般用字节个数来表示。一个通道在满负荷工作状态下的流量称为通道最大流量。通道最大流量主要与通道的工作方式(是指字节多路通道、选择通道和数组多路通道)、在数据传送期内通道选择一次设备所用的时间TS和传送一个字节所用的时间TD等因素有关。三种通道的最大流量计算公式如下:f=字节/秒()MAXBYTEf=字节/秒()MAXSELETE=字节/秒()MAXBLOCK根据字节多路通道的工作原理可知它的实际流量是连接在这个通道上的所有f设备的数据传输率之和即:fBYTE=对于选择通道和数组多路通道在一段时间内一个通道只能为一台设备传送数据而且这时的通道流量就等于这台设备的数据传输率。因此这两种通道的实际流量就是连接在这个通道上的所有设备中数据流量最大的那一个:fSELETE=fBLOCK=顺序方式、一次重叠方式和流水线方式它们的主要差别是:在正常情况下处理机中同时有几条指令在执行。顺序方式为条一次重叠方式为条流水线方式为条。顺序方式的优点是控制简单节省设备。主要缺点有两个一是处理机执行指令的速度慢。二是功能部件的利用率很低。一次重叠执行方式的优点主要有两个一是程序的执行时间缩短了近一倍二是功能部件的利用明显提高。主存储器可以基本上处于忙碌状态其它功能部件的利用率也得到提高。缺点是需要增加一些硬件控制过程也要复杂一些。二次重叠执行方式能够使指令的执行时间缩短近两倍这是一种理想的指令执行方式。缺点是硬件更加复杂。()顺序执行需要的时间如下:()取指令和执行重叠即一次重叠执行方式我们假设第n条指令的取指令和第n条指令的执行同时结束那么所需要的时间为:()采用先行控制以后:流水线的时空图如下:我们可以看出在(n)Δt的时间内可以输出n个结果如果指令的序列足够长(n)并且指令间不存在相关那么吞吐率可以认为满足:加速比为:从上面的时空图很容易看出效率为:首先需要考虑的是个数的的和最少需要做几次加法。我们可以发现加法的次数是不能减少的:次于是我们要尽可能快的完成任务就只有考虑如何让流水线尽可能充满这需要消除前后指令之间的相关。由于加法满足交换率和结合率我们可以调整运算次序如以下的指令序列我们把中间结果寄存器称为R源操作数寄存器称为A最后结果寄存器称为F并假设源操作数已经在寄存器中则指令如下:I:RAAI:RAAI:RAAI:RAAI:RAAI:RRRI:RRRI:RRRI:FRR这并不是唯一可能的计算方法。假设功能段的延迟为Δt。时空图如下图中的数字是指令号:整个计算过程需要Δt所以吞吐率为:加速比为:效率为:为了取得较高的速度我们需要一次将乘法作完设源操作数存放在寄存器A、B中中间结果存放在寄存器R中最后结果存放在寄存器F中则执行的指令序列如下所示:I:RA*BI:RA*BI:RA*BI:RA*BI:RA*BI:RA*BI:RRRI:RRRI:RRRI:RRRI:FRR这并不是唯一可能的计算方法。假设功能段的延迟为Δt。时空图(不完全)如下图中的数字是指令号:整个计算过程需要Δt所以吞吐率为:加速比为:效率为:要完成上面的矩阵乘法我们可以计算需要完成的各种操作的数量(假定A和B都是×的矩阵。C语言代码如下:intkfor(inti=i<i)for(intj=j<j){sum=for(k=k<k){sum=Aik×Bkj}Cij=sum}需要完成的乘法数目为××=次需要完成的加法数目为××=次下面我们分析处理机的结构会给性能带来什么样的影响。()顺序执行时每个乘法和加法指令都需要个时钟周期(取指令、指令分析、指令执行)所以所需要的时间为:()单流水线标量处理机采用两功能静态流水线时因为有足够的缓冲寄存器所以我们可以首先把所有的乘法计算完并通过调度使加法流水线不出现停顿所以所需要的时间为:()多操作部件处理机只有一条指令流水线。由于只有一条指令流水线所以只能一个时钟周期发射一条指令我们可以考察加法部件的执行过程对C矩阵的第一个元素当乘法部件完成两次计算后加法部件启动运行次然后对其余的元素加法部件停顿个时钟周期然后运行次。故执行时间为:()单流水线标量处理机有两条独立的操作流水线由于只有一条指令流水线所以只能一个时钟周期发射一条指令由于存在足够的缓冲寄存器我们可以通过合适的调度消除数据相关。故执行时间为:()超标量机能同时发射一条加法和一条乘法指令有两条独立的操作流水线。他的执行过程和()很相象乘法流水线一直在运行而加法流水线因为数据相关而存在停顿。我们可以换个角度来考察乘法流水线的运行情况。从第个时钟周期乘法流水线一直忙碌在乘法流水线完成所有计算后加法流水线还需要完成最后一次计算。所以执行时间为:()超流水线处理机每个时钟周期发射两条指令加法部件和乘法部件都为个流水级。事实上相当于将时钟周期变成了ns而加法和乘法流水线变成了级。这样和()类似有执行时间为:()超标量超流水线处理机一个时钟周期分为两个流水级加法部件和乘法部件都为个流水级每个流水级能同时发射一条加法和一条乘法指令。综合()和()的分析我们可以知道执行时间为:在乱序流动方式中有"先写后读"、"先读后写"、"写写"三种数据相关。在流水线中解决数据相关的方法可以分为两大类其中一类是延迟执行另一类是建立专用路径。延迟执行是避免数据相关最简单的方法其原理是延迟发生数据相关的指令中的某些指令的执行直到相关被解除为止。这种方法的优点是流水线的控制简单缺点是流水线的吞吐率和效率低。建立专用路径解决数据相关的基本原理是数据重定向既将某个流水线的输出直接送到另一个流水线的输入而不经过寄存器或存储器。在流水线中建立专用数据路径已经成为高性能处理机普遍采用的方法。超标量处理机和超流水线处理机都可以在一个时钟周期中发射多条指令。所不同的是超标量处理机是在一个时钟周期中同时发射多条指令其最基本的要求是必须有两套或两条以上完整的指令执行部件。而超流水线处理机是在一个时钟周期中分时发射多条指令它只需要增加少量硬件是通过各部分硬件的充分重叠工作来来提高处理机性能的。从流水线的时空图上看超标量处理机采用的是空间并行性而超流水线处理机采用的是时间并行性。多流水线的调度主要有三种方法即顺序发射顺序完成顺序发射乱序完成和乱序发射乱序完成。顺序发射顺序完成要求指令按照程序中的指令排列顺序发射如果指令间发生相关则流水线必须等待而且后发射的指令必须后进入写结果流水段。顺序发射乱序完成也要求指令按照程序中的指令排列顺序发射如果指令间发生相关流水线同样必须等待但是先完成的指令可以先进入写结果流水段而不必等待在其之前发射的指令。乱序发射乱序完成可以根据指令间的相关调整指令发射顺序而且先完成的指令可以先进入写结果流水段。向量平衡点(vectorbalancepoint)定义为为了使向量硬件设备和标量硬件设备的利用率相等一个程序中向量代码所占的百分比。如果系统在向量模式下能够达到Mfolps、在标量模式下能够达到Mfolps的运算速度假设代码的%是向量运算%是标量运算这样花在两种模式上的计算时间相等那么向量平衡点为。通常有种技术可以提高向量处理机的性能:链接技术、分段开采技术、向量递归技术、稀疏矩阵的处理技术。流水线链接是从流水线的内部定向概念发展而来的。链接是当从一个流水线部件得到的结果直接送入另一个功能流水线的操作数寄存器时所发生的连接过程。换句话说中间结果不必送回存储器而且甚至在向量操作完成以前就使用。链接允许当第一个结果一变成可用的操作数时就马上发出相继的操作。当然所需要的功能流水线和操作数寄存器必须恰当地预定否则链接操作就不得不挂起直到所需要的资源变为可用为止。分段开采技术是指:当向量的长度大于向量寄存器的长度时必须把长向量分成长度固定的段。处理长向量的程序结构称为向量循环。将长向量分段成为循环是由系统硬件和软件控制完成的程序员看不到这种向量分段为循环的过程对程序员是透明的。每经过一次循环便处理长向量的一个段。一般在进入循环以前根据向量长度计算出循环计数值。向量递归是一类特殊的向量循环其流水线功能部件的输出可能要回送到它的一个源向量寄存器。换句话说一个向量寄存器用来同时存放源操作数和结果操作数。采用向量递归技术的流水线在每个流水线周期从分量这一角度看向量寄存器的作用好象移位寄存器。当一个操作数分量移出向量寄存器进入流水线功能部件时一个结果分量可以在同一周期进入腾空的分量寄存器。目前一般采用两种方法处理稀疏矩阵。一种是稀疏向量方法即一个稀疏向量由两个向量组成。其中一个是短向量它仅包含向量的非零元素。另一个是位向量其中"1"表示对应位置为非零元素"0"表示对应位置为零元素。当需要访问稀疏向量的时候根据位向量来决定对某个特定的单元是否要进行存取。当位向量相应位是零时就不需要访问了。另一种方法是只需存储非零元素另外把非零元素在原始矩阵中的下标值记录在一个数组中。当访问稀疏矩阵元素时需要把下标值转换成存储器的地址。可以采用Hash方法把下标转换成地址。如果Hash查找发现一个下标那么表示对应的元素为非零Hash表中包含对应元素的存储器地址。如果Hash查找失败表示相应元素为零。要决定指令是否能够并行主要看指令之间是否存在功能部件的使用冲突是否存在操作数寄存器的使用冲突。而指令是否能够进行链接(Chaining)主要看指令之间是否存在写读相关。所以对于这些指令我们可以分析如下。对每一组的指令我们从前往后给以标号III……以便于分析。()III均可以并行执行但不能链接()II可以并行执行I可以与II链接()II可以并行执行I可以链接在II后而I和I存在功能部件使用冲突所以不能链接()I链接在I后I链接在I后I链接在I后()III可以并行执行不能链接(注意标量和向量计算使用相同的功能部件)()II可以并行执行而II与I分别存在功能部件使用冲突和寄存器使用冲突但II可以并行执行()II可以并行执行I链接在II后(注意存储器读和存储器写使用不同的流水线但假设机器寻址采用单一的电路即不支持存储器的并行访问)()I链接在I后由于I与I存在寄存器使用冲突所以不能链接而I与I存在功能部件使用冲突所以也不能链接。采用以上的并行和链接后我们可以计算出他们使用的节拍数:()由于乘法所要时间最长所以计算I所用的时间:第一项是第一个结果完成的时间第二项是剩余结果流出流水线的时间下面的公式类似()所用的节拍数为:()所用的节拍数为:()所用的节拍数为:()所用的节拍数为(注意加法流水线在乘法流水线先空闲):()所用的节拍数为:()假设存储器写需要拍则所用的节拍数为:()所用的节拍数为:如果将互连网络的N个输入端和N个输出端分别用整数…N来表示则互连函数表示相互连接的输出端号和输入端号之间的一一对应关系。或者说存在互连函数f在它的作用下输入i应与输出f(i)相连<i<N。表示互连函数通常用两种方法:一种是函数表示法另一种是输入输出对应表示法。与结点相连接的边(即链路或通道)数称为结点度用d表示。在单向通道情况下进入结点的通道数叫做入度而从结点出来的通道数则称为出度。结点度就是二者之和。当某一网络被切成相等的两半时沿切口的最小边数(通道)称为通道等分宽度用b表示。于是线等分宽度就是B=b×ww为通道宽度(用位表示)。因此等分宽度是说明沿等分网络最大通信带宽的一个参数。静态互连网络是指在各结点间有专用的连接通路且在运行中不能改变的网络。在静态互连网络中每一个开关元件固定地与一个结点相连建立该结点与邻近结点之间的连接通路直接实现两结点之间的通信。这种网络比较适合于构造通信模式可预测或可用静态连接实现的计算机。动态互连网络设置有源开关因而可根据需要借助控制信号对连接通路加以重新组合实现所要求的通信模式。()最高位取反得即()()MOD=()=()循环左移位得到即()Shuffle()循环左移位得即消息寻径有种方法:线路交换、存储转发寻径、虚拟直通寻径和虫蚀寻径。在线路交换这种寻径方式下在传递一个消息之前先建立一条从源结点到目的结点的物理通路然后再传递消息。在频繁的小信息包通信方式下由于在传递一个消息之前需要频繁地建立从源结点到目的结点的物理通路开销将会很大。在存储转发寻径中包是信息流的基本单位。每个结点有一个较大的包缓冲区。当一个包到达一个中间结点时它首先被存入缓冲区。当所要求的输出通道和接收结点的包缓冲区可使用时然后再将它传送给下一个结点。存储转发网络的时延与源和目的地之间的距离(段数)成正比。在虚拟直通寻径方式下只要接收到用作寻径的消息头部即可作路由选择没有必要等到整个消息全部缓冲。理想情况下通信时延与结点数无关。然而当出现寻径阻塞时虚拟直通方式只有将整个消息全部存储在寻径结点中直到寻径通道不阻塞时才能将消息发出。虫蚀寻径中将包进一步分成更小的片同一个包中所有的片不间断地以流水方式顺序地传送只有头片知道包将发往何处。虫蚀寻径中每个结点的缓冲区较小并且通信时延与结点数无关。解决包冲突有种方法:虚拟直通寻径缓冲方法既将冲突的包暂存在缓冲区中直到冲突消除阻塞方法既将冲突的包阻塞虫蚀寻径一般采用这种办法实现成本低但可能出现分配给阻塞包的资源空闲的情况扬弃方法既将冲突的包扬弃掉,可能会出现资源严重浪费并且需要包重新发送和回答否则被扬弃的包也许会丢失绕道方法被阻塞的包被送到一条绕行的通道,可能要用更多的通道资源才能到达目的地并行处理机从结构上可以分为分布式存储器结构和共享式存储器结构。分布式存储器结构的SIMD计算机包含重复设置的多个同样的处理单元PE通过数据寻径网络以一定方式互相连接。每个PE有各自的本地存储器LM。在统一的阵列控制部件作用下实现并行操作。共享式存储器结构是一种集中设置存储器的方案。共享的多体并行存储器SM通过对准网络与各处理单元PE相连。SIMD计算机利用大量处理单元对向量所包含的各个分量同时进行运算与流水线向量处理机相比SIMD计算机依靠的并行措施是资源重复而不是时间重叠而且它的每个处理单元要担负多种处理功能其效率比多个单功能流水线部件要低一些。所以只有在硬件价格大幅度下降加上系统结构的不断改进SIMD计算机才具有较好的性能价格比。但是要论提高运算速度SIMD计算机主要依靠增多处理单元的个数与流水线处理机主要依靠缩短时钟周期相比其提高速度的潜力要大得多如果有很好的互连网络相配合则多处理单元的功能和灵活性将会更强一些。流水线的向量处理机处理短向量时流水线建立和排空时间的比例加大而在SIMD计算机中短向量对速度的影响较小。SIMD计算机基本上是一台向量处理专用计算机。流水线向量处理机接到主机上是为了执行主机的一些有关操作或子程序以此分担主机的部分功能从而提高主机的有效运算速度它们还不能被认为是系统的主体。()在SISD计算机中计算s需要串行计算n次乘法和n次加法。共需要时间:算法如下:S=A*BFori=tonDoS=SA*BiiEnddo()在SIMD计算机上计算采用如下的算法:(假设mn)首先把向量中的n对元素尽量平均地分配到m个处理其中每个处理器最多分配nm对最少分配nm对最多经过(nm)nm时间所有n个处理器上都得到了一个局部和对这m个处理器构成的线性环做累加运算。若采用两路线性累加的方法共用做加法m次,数据传递m次共用时间(nm)nmm=nmm。若用递归累加的方法假设m是的p次幂。做p次并行的加法移位…m=m次。用时p(m)。总共用时为(nm)nmlogm(m)=nmmlogm进一步分析:当logm<m时即m>时并行累加比两路线性累加更优。反之当m<时两路线性累加更快。其根本原因就是并行累加算法节省了加法时间但是花费更多的数据传送时间。算法描述如下:Par:Forj=tomDoS(j)=A*BjjFortoDoS(j)=S(j)A*BijijEnddoS(j)=S(j)S(j)S(j)=S(j)S(j)S(j)=S(j)S(j)……S(j)=S(j)S(j)Enddo()加速比当采用两路线性累加的方法时加速比为:若m=n做乘法的时间变为则加速比简化为当采用递归并行累加时加速比为:当m=n时做乘法的时间变为则加速比简化为分析其原因可以看出线性互连网络的传输开销在这里是制约加速比增长的最大障碍无论采用何种并行算法一个数据从线性环形网络中的一个节点传递到最远的节点的最短时间为m这个时间是无法改进的并且随着处理节点的增多成为最主要的时间开销。相对而言加法和乘法随着处理单元的增多所占的时间比例越来越小。它有多个控制器至少有多个指令部件用以对各个PE实现单独的控制而又相互协调配合。多处理机的外围设备要能够被多个PE分别调用因而要通过互连网络转接而不象并行处理机的外围设备那样统一访问主存储器进行程序和数组的有规则的传送。并行处理机由于主要完成数组向量运算它的PE和MM之间的数据交往是比较有规则的存储器访问的地址变换功能下必要求太高因而互连网络的作用主要放在数据对准上可以做得比较简单但是多处理机由于互连网络必须满足各个PE随机地访问主存储器的要求所以连接模式、频带和路径选择等问题都要复杂得多。存储映射部件对每一个PE也是必需的

用户评价(0)

关闭

新课改视野下建构高中语文教学实验成果报告(32KB)

抱歉,积分不足下载失败,请稍后再试!

提示

试读已结束,如需要继续阅读或者下载,敬请购买!

文档小程序码

使用微信“扫一扫”扫码寻找文档

1

打开微信

2

扫描小程序码

3

发布寻找信息

4

等待寻找结果

我知道了
评分:

/60

清华计算机组成与结构(基本概念)

VIP

在线
客服

免费
邮箱

爱问共享资料服务号

扫描关注领取更多福利