1、高级计算机体系结构 作业 学号 : 2220120336 姓名:刘永继 1 1. Explain the Concepts Computer Architecture 系统结构 由程序设计者所看到的一个计算机系统的属性 。 即计算机系统的软硬件界面。 Advanced CA 高级系统结构 新型计算机系统结构。基于串行计算机结构,研究多指令多数据计算机系统,具有并发、可扩展和可编程性。为非冯式系统结构。 Amdahl law Amdahl 定律 系统中某部件由于采用某种方式时系统性能改进后,整个系统性能的提高与该方式的使用频率或占的执行时间的比例有关。 SCALAR PROCESSING 标量处
2、 理机 在同一时间内只处理一条数据。 LOOK-AHEAD 先行技术 通过缓冲技术和预处理技术,解决存储器冲突,使运算器能够专心与数据的运算,从而大幅提高程序的执行速度。 PVP 向量型并行计算处理机 以流水线结构为主的并行处理器。 SMP 对称多处理机系统 任意处理器可直接访问任意内存地址 ,使用共享存储器, 访问延迟、带宽、机率都是等价的 。 MPP 大规模并行计算机系统 物理和逻辑上均是分布内存 , 能扩展至成百上千处理器 , 采用专门设计和定制的高通信带宽和低延迟的互联网络 。 DSM 分布式共享存储系统 内存模块物 理上局部于各个处理器内部 ,但逻辑上是共享存储的 。 COW 机群系
3、统 每个节点都是一个完整的计算机 , 各个节点通过高性能网络相互连接 , 网络接口和 I/O 总线松耦合连接 , 每个节点有完整的操作系统 。 GCE 网格计算环境 利用互联网上的计算机的处理器闲置处理能力来解决大型计算问题的一种科学计算。 CISC 复杂指令集计算机 高级计算机体系结构 作业 学号 : 2220120336 姓名:刘永继 2 通过设置一些复杂的指令,把一些原来由软件实现的常用功能改用硬件实现的指令系统实现,以此来提高计算机的执行速度。 RISC 精简指令集计算机 尽量简化计算机指令功能,只保留那些功能简单,能在一个节拍 内执行完的指令,而把复杂指令用段子程序来实现。 VMM
4、虚拟机监视器 作为软硬件的中间层, 在应用和操作系统所见的执行环境之间 。 SUPERCOMPUTER 超级计算机 数百数千甚至更多的处理器组成的能计算普通计算机不能完成的大型复杂问题的计算机。 SVM 共享虚拟存储器 存储器虚拟化为一个共享的存储器,并提供单一的地址空间。 MAINFRAME 大型计算机 作为大型商业服务器,一般用于大型事务处理系统,特别是过去完成的且不值得重新编写的数据库应用系统方面 。 COMPUTER SYSTEM ON CHIP 片 上计算机系统 在单个芯片上集成的一个完整系统。 PARALLEL ARCHITECTURE INTO SINGLE CHIP 单片并行结
5、构 在单个芯片上采用的并行体系结构 MOORE law Moore 定律 当价格不变时,集成电路上可容纳的晶体管数目,约每隔 18 个月便会增加一倍,性能也将提升一倍。 UMA 一致存储访问 采用集中式存储的模式,提供均匀的存储访问。 NUMA 非一致存储访问 内存模块局部在各个结点内部,所有局部内存模块构成并行机的全局内存模块 。 COMA 全高速缓存存储访问 采用分布式存储模式 ,通过高速缓存提供快速存储访问。 CC-NUMA 全高速缓存非一致性均匀访问 存在专用硬件设备保证在任意时刻,各结点 Cache 中数据与全局内存数据的一致性 。 NORMA 非远程存储访问 高级计算机体系结构 作
6、业 学号 : 2220120336 姓名:刘永继 3 利用私有的存储器通过互联网络进行消息传递。 SHELL ARCHITECTURE Shell 结构 用专门定制的 Shell 电路将商用微处理器和节点的其它部分(包括板级 Cache、局存、 NIC和 DISK)连接起来。 PRAM 随机存取并行机器 模型 共享存储的 SIMD 模型 ,假定存在一个容量无限大的共享存储器,有有限 或无限个功能相同的处理器,且他们都具有简单的算术运算和逻辑判断功能,在任何时刻 处理器都可以通过共享存储单元相互交互数据 。 BSP 整体同步并行计算模型 分布存储的 MIMD 计算模型 , 将处理器和路由器分开,
7、强调了计算任务和通信任务的分开 。采用障碍同步的方式以硬件实现的全局同步是在可控的粗粒度级,从而提供了执行紧耦合同步式并行算法的有效方式 。 LOG P 分布存储的、点到点通信的多处理机模型 L (Latency) 表示信息从源到目的地所需的时间; O (Overhead) 表示处理器接受或发送一条消息所需额外开销,并且在此期间处 理器不能做作任何操作; G (Gap)表示处理器连续进行两次发送或接收消息之间必须有的时间间隔; P (Processor) 表示处理器的数目。 2. Explain the Flynn classify and its semantics. 1) 单指令流单数据流
8、( Single Instruction Stream Single Data Stream, SISD) SISD 其实就是传统的顺序执行的单处理器计算机,其指令部件每次只对一条指令进行译码,并只对一个操作部件分配数据。 2) 单指令流多数据流( Single Instruction Stream Multiple Data Stream, SIMD) SIMD 以并行处理机为代表,结构如图,并行处理机包括多个重复的处理单元 PU1 PUn,由单一指令部件控制,按照同一指令流的要求为它们分配各自所需的不同的数据。 3) 多指令流单数据流( Multiple Instruction Strea
9、m Single Data Stream, MISD) MISD 的结构,它具有 n 个处理单元,按 n 条不同指令的要求对同一数据流及其中间结果进行不同的处理。一个处理单元的输出又作为另一个处理单元的输入。 4) 多指 令流多数据流( Multiple Instruction Stream Multiple Data Stream, MIMD) MIMD 的结构,它是指能实现作业、任务、指令等各级全面并行的多机系统,多处理机就属于 MIMD。 3. Where are the difficulties of Parallel Processing? What is Parallel(并行 )
10、、 concurrent(并发) and Simultaneous(同时 )separately? 1) 并行处理的难度: a) 处理单元的多少以及其功能的强弱; b) 处理单元的连接方式以及其处理结构; c) 同步与互斥的实现; d) 处理单元之间的数据传输; 高级计算机体系结构 作业 学号 : 2220120336 姓名:刘永继 4 e) 不同存储层次上的数据一致性。 2) 并行:两个或多个事件在同一时刻发生; 并发:两个或多个事件在同一时间间隔内发生; 同时:两个或多个事件在同一时间内完成。 4. Assume that a system component be speeded to
11、10 times, Its past processing time accounts for 40% of the system , how much will be the system performance improved? 1 ; 4 0 % , 1 01S p f nff n 1 1 .5 6 2 50 .41 0 .4 10Sp 5. Please draw the memory Hierarchy chart。 6. Explaining Conceptions RISC 精简指令集计算机 尽量简化计算机指令功能,只保留那些功能简单,能在一个节拍内执行完的指令,而把复杂指令用
12、段子程序来实现。 高级计算机体系结构 作业 学号 : 2220120336 姓名:刘永继 5 CISC 复杂指令集计算机 通过设置一 些复杂的指令,把一些原来由软件实现的常用功能改用硬件实现的指令系统实现,以此来提高计算机的执行速度。 VLIW 超大规模集成电路 指几毫米见方的硅片上集成上万至百万晶体管、线宽在 1 微米以下的集成电路 。 SUPER-SCALAR 超标量 通过内置多条流水线来同时执行多个处理器,其实质是以空间换取时间。 SUPER-PIPELINE 超流水线 通过细化流水、提高主频,使得在一个机器周期内完成一个甚至多个操作,其实质是以时间换取空间。 SUPER-SCALAR-
13、SUPER-PIPELINE 超标量超流水线 在一个 基本时钟周期内能够分时发送多组指令,并且每组指令又可包涵一条或多条指令 。 IPC 单位 时钟周期内所执行的指令 数 SINGLE ISSUE 单发射结构 在一个时钟周期内只从存储器中取出一条指令,并且只对一条指令进行译码,只执行一条指令,只写一个运算结果。 MULTIPLE ISSUE 多发射结构 在一个基本时钟周期内同时从指令 Cache 中读出多条指令,同时对多条指令进行译码。 OOO 乱序执行结构 能够不按照程序提供的顺序完成计算任务,是一种加快处理器运算速度的架构。 Multi-Threading 多线程 同时运行多个轻量级任务。
14、 7. In ideal case, please give the performances for SUPER-SCALAR, SUPERPIPELINE, SUPER-SCALAR-SUPER-PIPELINE, and give N=8 examples and their average IPC. 1) 性能 超标量性能: S(m,1) = T(1,1) / T(m,1) = (K+N-1) / (K+(N-m)/m) 超流水性能: S(1,n) = T(1,1)/T(1,n) = n(k+N-1) / nk+N-1 超标量超流水性能: S(m,n) = T(1,1)/T(m,n)
15、= (K+N-1) / (K+(N-m)/(mn) 其中, N 表示不相关指令数, m 表示指令的并行度, n 表示指令流水线的并行度, K 表示指令流水线的阶段数 2) N=8 的周期图 超标量 : 高级计算机体系结构 作业 学号 : 2220120336 姓名:刘永继 6 F- D- E- W F- D- E- W F- D- E- W F- D- E- W F- D- E- W F- D- E- W F- D- E- W F- D- E- W 1 2 3 4 5 6 7 IPC = 8 /7 = 1.14 超流水 : F |D |E |W | | | | F | D| E| W| | |
16、 | |F |D |E |W | | | | F| D | E| W| | | | |F |D |E |W | | | | F| D | E| W| | | | |F |D |E |W | | | | F| D | E| W| 1 2 3 4 5 6 7 IPC = 8 / 7 = 1.14 超标量超流水 : F |D |E |W | | F |D |E |W | | F | D| E| W| | F | D| E| W| | |F |D |E |W | |F |D |E |W | | F | D| E | W| | F | D| E | W| 1 2 3 4 5 IPC = 8 / 5 =
17、1.60 8. Please describe the CPU technology in recent years, and give an example to illustrate their technical parameters. 1) Hyper threading Threads are independent parts of a computer program. Multi-tasking operating systems (e.g. Windows or Linux) work by allocating each thread a certain amount of
18、 “CPU time“ in which to execute some instructions. This means that they can run dozens of programs “at the same time“. Multi-processor systems allow the OS to literally run two or more program threads simultaneously on different CPUs. This means that there is less competition for CPU time and 高级计算机体
19、系结构 作业 学号 : 2220120336 姓名:刘永继 7 therefore the computer should operate more quickly. However, multiprocessor systems are expensive. Hyper-Threading Technology (HTT) was introduced by Intel to give a cost-effective compromise. By duplicating some of the parts of the main core it pretends to be two pro
20、cessors. This gives a small speed increase (up to 30%). 2) Dual Core however it gives typically 25%75% faster performance than a single core processor. The Athlon 64 X2 and Pentium D were the first dual-core processors released for the PC, followed by the Intel Core Duo, Core 2 Duo and AMD Athlon FX
21、60. Intel has released a four-core Core 2 Quadro processor. core name process processor socket typical L2 cache Willamette 180nm Pentium 4 478 256 KB Northwood 130nm Celeron 478 128 KB Prescott 90nm Celeron D / P4 478 256 KB / 1MB Prescott 2M 90nm Pentium 4 (6xx) 775 2 MB Cedar Mill 65nm Pentium 4 (
22、6xx) 775 2 MB Smithfield 90nm Pentium D (8xx) 775 2 MB Presler 65nm Pentium D (9xx) 775 4 MB Yonah 65nm Core Duo / Solo 775 4 MB Conroe 65nm Core 2 Duo 775 4 MB The diagram below shows the architecture of a Conroe core: core name process processor socket typical L2 cache Thoroughbred 130nm Athlon XP
23、 A 256 KB Barton 130nm Athlon XP A 512 KB Palermo 90nm Sempron 754 128 KB Clawhammer 130nm Athlon 64 754 1 MB Newcastle 130nm Athlon 64 754 512 KB Sledgehammer 130nm Athlon 64/FX 939 1 MB Winchester 90nm Athlon 64 939 512 KB Venice 90nm Athlon 64 939 512 KB Manchester 90nm Athlon 64 X2 939 1 MB Tole
24、do 90nm Athlon 64 X2 939 2 MB 高级计算机体系结构 作业 学号 : 2220120336 姓名:刘永继 8 9. Please give computing trace of ai+7=bj+1+ck+8+dm+10 for T9000 ai+7=bj+1+ck+8+dm+10 1 |2 |3 |4 |5 |6 |7 |8 |9 | Fj | | | | | | | | | Fb | | | | | | | | | |Fbj | | | | | | | | | |Fbj+1 | | | | | | | |Fk | | | | | | | | |Fc | | | |
25、| | | | | |Fck | | | | | | | | | |Fck+8 | | | | | | | | | |Eadd | | | | | | |Fm | | | | | | | | |Fd | | | | | | | | | |Fdm | | | | | | | | | |Fdm+10| | | | | | | | | |Eadd | | | | | | |Fi | | | | | | | | |Fa | | | | | | | | | |Fai | | | | | | | | | | | |Wai+7 | | 2 |3 |4 |4 |3 |1 | |1 | | 高级计算机体系结构
26、作业 学号 : 2220120336 姓名:刘永继 9 10. How to solve the multicore memory wall problem? 解决“内存墙”问题包括 内存带宽和内存等待时间两大基本途径,前者的应对方法是采用提高内存总线位宽和传 输倍率的技术;后者是采用多级缓存和数据预取、多线程和乱序执行等技术。其中,数据预取有硬件预取和软件预取。硬件数据预 取技术不同于指令的预取,主要包括顺序预取( Sequential Prefetching)、流缓存( Stream Buffers)、步幅预取( Stride Prediction based Prefetching)、
27、Markov 预取和混合方法等。软件数据预取技术是一个通过在计算和访问储时间上交叉的方法来隐藏存储访问延时的延迟容忍技术,适宜于提高多线程应用程序的性能。 而对于多核“内存墙”问题目前 还不能从根本上有所突破, 从而 将不大可能继续大幅度增加处理器的核心数量 来提升处理性能,而需要另辟蹊径满足日益增长的对 高性能计算的需求 。 随着 “多线程”、“多核处 理器”、“多核内存”等技术的进一步发展 , 也许可以找到 解决“内存墙”问题的一种可能途径。 11. Simple computer design test (10 points) Supposed there are a simple CP
28、U with A15-A0,D7-D0,read and write, an register and Tri-state buffers for I/O device, a 8k*8 ROM with A12-A0,D7-D0,CE and OE, and a 8k*8 RAM with A12-A0,D7-D0,CE,RD and WR. Please you design the circuit of a simple computer. 处理器 CPU 地址宽度为 16 位,数据宽度为 8 位,采用独立编址方式: ROM+RAM 地址分配如下: 0x00000x1FFF 对应 8k*8
29、ROM,地址空间为 8kB; 0x20000x3FFF 对应 8k*8RAM,地址空间为 8kB。 I/O Device 地址分配如下: 0x00x3 对应 I/O device,地址空间为 4B。 高级计算机体系结构 作业 学号 : 2220120336 姓名:刘永继 10 A R D RI / OD e v i c eD 0 D 1 D 2 D 3 D 4 D 5 D 6 D 7A 0 A 1 A 2 A 3 A 4 A 5 A 6 A 7 A 8 A 9 A 1 0 A 1 1 A 1 2 A 1 3 A 1 4 A 1 5D 0 D 1 D 2 D 3 D 4 D 5 D 6 D 7D 0 D 1 D 2 D 3 D 4 D 5 D 6 D 7D 0 D 1 D 2 D 3 D 4 D 5 D 6 D 7A0A1A2A3A4A5A6A7A8A9A10A11A12A13A0A1A2A3A4A5A6A7A8A9A10A11A12A13A14A15RB u f f e rC P U数 据 总 线控 制 总 线 地 址 总 线P CA L UR 1 R n8 k * 8R O M8 k * 8R A MABc l k
Copyright © 2018-2021 Wenke99.com All rights reserved
工信部备案号:浙ICP备20026746号-2
公安局备案号:浙公网安备33038302330469号
本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。