1、体系结构高性能的追求计算机体系结构是选择并相互连接硬件组件的一门科学和艺术,在人们不断探索研究的过程中,一直在追求计算机的功能、性能、功率以及花费的高度协调,以期达到各方面的最佳状态,在花费、能量、可用性的抑制下,实现计算机的多功能、高性能、低功率、少花费的一个新时代。根据当前体系结构的发展现状,要实现以上全部要求的一台计算机,还存在着诸多的限制条件,包括逻辑上的以及硬件上的。本篇综述针对 2008 年的 ISCA 会议上的几篇论文,经过仔细研读,深刻剖析,这些文章将现在计算机体系结构发展遇到的各种瓶颈列出,并给出了相关的意见及可行的解决方案。计算机的体系结构范围很广,定义也很宽泛,它包含了指
2、令集的设计、组织、硬件与软件的边界问题等等,同时涉及了应用程序、技术、并行性、编程语言、接口、编译、操作系统等很多方面。作为各项技术发展的中心,体系结构一直在不断地朝前发展。纵观计算机体系结构一路发展的历史,从 60 年代中期以前,最早的体系结构发展的早期时代,计算机系统的硬件发展很快,通用硬件已经很普遍,但是软件的发展却很滞后,刚刚起步,还没有通用软件的概念。从 60 年代中期到 70 年代中期,体系结构有了很大进步。多道程序、多用户系统引入了人机交互的新概念,开创了计算机应用的新境界,使硬件和软件的配合上了一个新的层次,但是此时的软件由于个体化特性很难维护,出现了“软件危机”。从 20 世
3、纪 70 年代中期开始,分布式系统开始出现并流行,极大地增加了系统的复杂性,出现了微处理器并获得了广泛应用。如今计算机的体系结构发展已经进入了第四代,硬件和软件得到了极大的综合利用,迅速地从集中的主机环境转变成分布的客户机服务器( 或浏览器服务器) 环境,新的技术不断涌现出来。尽管如此,计算机在总体上、功能上需要解决的问题仍然存在。随着 RISC 技术、Cache 等创新技术的发展,不仅仅在专业领域,越来越多的 PC 机也在向此靠拢。在每一次进步与创新的同时使组件的成本降到最低成为最需要考虑的问题。此次会议上发表的几篇论文,分别从以下几个方面对计算机体系结构的发展与改进进行了探究。一、新一代服
4、务器的发展在Understanding and Designing New Server Architectures for Emerging Warehouse-Computing Environments一文中,提出了一个改善服务器性能的方案。这篇论文旨在试图理解和为新兴的“仓库计算”环境设计下一代服务器。文中有两个主要的贡献。首先,放在一起的具体评价基础设施包括:为“仓库计算”工作量提供的一套新的基准,和详细的性能、成本、和权力模型,来定量描述瓶颈。其次,研究了一种新的解决方案,它在一种新的包装方案中,通过内存共享和以闪存为基础的硬盘缓存包含了大量的无服务器组件。结果表明,该方法已经承诺
5、, 将为该基准在性能上以平均2倍的速度来改善。可以看出,该篇文章着力于改善服务器的性能,分析了影响性能的各种因素,并一一剖析,针对瓶颈所在,提出可行的解决方案。在互联网迅速发展的时代,服务器的性能也是如今计算机发展的一个重要方面,服务器的性能好坏直接关系到整个网络的运行情况,以及能否高效地利用计算机的各项资源,文中所述的方法为服务器的改善与优化提供了全新的发展方向。二、通过线程级并行改善处理器性能Software-Controlled Priority Characterization of POWER5 Processor是针对处理器的各种限制发表的。根据指令级并行性的限制,线程级并行成为改
6、善处理器性能的一种流行的方法。文中以 IBM 的 POWER5TM 处理器为例子,这是一个双上下文的同时多线程芯片。在每一种表面组装技术的核心,IBM POWER5 突出了两层线程资源的平衡和优化。第一层提供了自动的内嵌硬件资源平衡设备,而第二层是一种软件控制优化机制,它显示了线程优化的八层。现在,由于缺乏机制影响的性能描述,软件控制优先次序仅仅被应用在软件平台有限的几例上。在这项工作中,文中描绘了在几种不同工作量下基于软件优化的影响。通过显著地在核心依靠工作量,展示了优化的影响。通过优化正确的任务,与基线相比,可能会为综合的工作量得到超过两倍的生产能力改善。同时也把两个不同的性能度量作为目标
7、,介绍两个应用学习案例:第一个学习案例增加了整个工作量的 23.7%,第二个学习案例减少了整个执行时间的 9.3%。此外,文中还展示了当一个背景线程没有影响前景线程的性能时能够明显地运行时的环境。通过并行性来改善处理器的性能,已经不是新的技术,但是该篇文章中将并行性细化到线程级,大大提高了并行度,并且克服了通常指令级并行的限制,不失为一个有较大发展全景的方法。以 POWER5TM 处理器为例子,更加形象直观地给出了该方法的优点及特性,用具体的量化实验给出了可行性的证明,这在计算机体系结构今后的发展中将起到重要的作用,也给出了很多方面的启迪。三、并行性意识分批处理时序Parallelism-Aw
8、are Batch Scheduling: Enhancing both Performance and Fairness of Shared DRAM Systems:在一个芯片多重处理器系统中,动态随机存储器是在内核中共享的。在一个共享的动态随机存储器系统中,要求一个线程不仅延迟来自其他线程的由于边界、总线、行缓冲器冲突的请求,而且还会破坏其他线程动态随机存储器边界层的并行性。请求那些存在潜在因素否则被重叠能够有效地序列化。由于公平性和系统工作量的下降,一些线程的扫描需要很长的一段时间。这篇论文从根本上提出了一个设计动态随机存储器控制器的新方法,为线程提供了服务质量,同时也改善了系统的工作
9、量。文中的并行意识分批处理时序(PAR-BS)基于两个关键的观点。首先, PAR-BS 分批地处理 DRAM 请求来提供公平并且避免请求的饿死。其次,优化系统工作量,PAR-BS采用并行意识 DRAM 时序安排策略,目标在于处理来自一个在 DRAM 边界的并行线程的请求,从而通过线程减少内存关联,拖延时间经验。PAR-BS 无缝地包含了对系统级线程优先级的支持,并且能够对不同优先级的线程提供不同的服务层,包括纯粹投机的服务。我们评价涉及 PAR-BS 的设计权衡,并且在 4、8、16 核系统上把它与 4 个以前提出的DRAM 调度程序设计比较。文中评估显示,平均每 4 核超过 100 的工作量
10、,PAR-BS 改善了 1.11X 的公平性,而且系统通过与以前最好的时序、延时公平内存时序安排(STFM)技术比较改善了 8.3%。基于简单的优先次序规则请求,PAR-BS 比实施STFM 更简单。文中提出了一个叫做并行意识分批处理时序(PAR-BS)的方法,这是一种设计动态随机存储器控制器的新方法,通过分批处理请求以及优化系统工作量,为线程提供服务质量,同时也改善了系统的工作量。再一次利用并行的方法,处理并行的线程请求,可以看做在上一文的基础之上,对处理器做了进一步的优化,从存储器的方面来并行处线程,既节省了内存空间,又不影响程序运行的并行性。四、内嵌磁盘并行性 Intra-disk Pa
11、rallelism: An Idea Whose Time Has Come 一文中,服务器存储系统使用大量的磁盘来实现高性能,因此消耗大量的能量。在这篇论文中,我们建议由这样的存储系统通过内嵌磁盘并行性显著地减少能量,在 I/O 请求流中磁盘驱动器能够开发并行性。内嵌磁盘并行性能够帮助一个大的磁盘阵列替换一个较小的,用满足容量需求的磁盘最小数目。我们展示了内嵌磁盘并行性的设计空间很大,而且呈现了用这样的空间来规划特定的实现的一个分类学。用一整套商业工作量,我们执行了一个限制性学习来鉴定关键性能瓶颈,这在我们用一个调整用于提供高性能的存储阵列来替代一个单独的高内存的磁盘驱动器。我们展示了这是可
12、能匹配的,甚至超越,通过使用一个拥有足够的空间的单磁盘驱动器的一个存储阵列的性能,开发了内嵌磁盘并行性。而通过存储系统显著地减少能量消耗。我们计算由内嵌磁盘并行驱动器组成的磁盘阵列的性能和能量消耗,并且讨论实现和调度这样的磁盘驱动器的工程和花费问题。这又是一个并行性的优化方法,与前面所述的两种并行性不同,该文是针对磁盘提出的并行性。传统的计算机为了提高速度加强性能,都不可避免造成了其他方面的损失,例如容量大、能量高等等,而该文中的通过内置的磁盘并行,在实现高性能的同时,也减少了能量的消耗,这是过去所追求的计算机性能的一个重要方面,虽然没有完全实现,但已经向前卖出了一大步,实现了质的飞跃。五、指
13、令粒度程序监控的灵活硬件加速器Flexible Hardware Acceleration for Instruction-Grain Program Monitoring中提出了一种指令粒度程序监控工具,在个人指令粒度上检查和分析执行程序,对快速检测错误和安全攻击然后限制它们的损害是非常宝贵的(通过容量或者恢复) 。不幸的是,它们的微粒本性对每一个只用软件的工具有着非常高的监控费用,它们是典型的基于动态二进制的使用仪器。以前的硬件提案不是集中于以特殊错误为目标的机制,就是仅仅定位于二进制使用仪器的花费。在这篇论文中,为促进大范围的指令粒度程序监控工具提出了一个灵活的硬件解决方案。通过检查一些
14、不同的工具(为了存储检验,安全跟踪,以及数据种类探测) ,识别一般费用的三种重要的共同资源,然后为定位这些费用提出三种新的硬件技术:继承跟踪幂等滤波器,以及元数据转换旁置缓冲器。总的来说,这些组成了一个多用途的硬件加速框架。实验结果显示我们的框架比以前最先进的技术减少了2-3 倍,同时支持了需要的灵活性。该文区别于以上几篇的不同之处在于,前几篇均是从提高计算机的性能方面着手,而该文是从减少花费着着手,同时不降低计算机的性能,这正是我们所研究的体系结构发展的另一个重要方面,有着较高的实用价值。提高系统的性能可以从多方面入手,而如何在改善每个方面的同时又不牵制其他方面则是上述几篇文章所追求的,它们
15、分别从速度、容量、花费等几个方面提出了新的方法,给未来计算机的发展提供了指导性的意见,为我们展现了一副美好的蓝图。参考文献:1Lim, K.; Ranganathan, P.; Chang, J.; Patel, C.; Mudge, T.; Reinhardt, S. Understanding and Designing New Server Architectures for Emerging Warehouse-Computing Environments. Computer Architecture, 2008. ISCA 08. 35th International Symposi
16、um on.2 Boneti, C.; Cazorla, F.J.; Gioiosa, R.; Buyuktosunoglu, A. Cher, C.-Y.; Valero, M.; Software-Controlled Priority Characterization of POWER5 Processor. Computer Architecture, 2008. ISCA 08. 35th International Symposium on.3 Mutlu, O.; Moscibroda, T. Parallelism-Aware Batch Scheduling: Enhanci
17、ng both Performance and Fairness of Shared DRAM Systems. Computer Architecture, 2008. ISCA 08. 35th International Symposium on.4 Sankar, S.; Gurumurthi, S.; Stan, M.R. Intra-disk Parallelism: An Idea Whose Time Has Come. Computer Architecture, 2008. ISCA 08. 35th International Symposium on.5 Chen, S.; Kozuch, M.; Strigkos, T.; Falsafi, B.; Gibbons, P.B.; Mowry, T.C.; Ramachandran, V.; Ruwase, O.; Ryan, M.; Vlachos, E. Flexible Hardware Acceleration for Instruction-Grain Program Monitoring. Computer Architecture, 2008. ISCA 08. 35th International Symposium on.学号:21021246姓名:舒畅
Copyright © 2018-2021 Wenke99.com All rights reserved
工信部备案号:浙ICP备20026746号-2
公安局备案号:浙公网安备33038302330469号
本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。