CPU与GPU融合大势所趋.doc

上传人:gs****r 文档编号:3487634 上传时间:2019-05-31 格式:DOC 页数:5 大小:26.50KB
下载 相关 举报
CPU与GPU融合大势所趋.doc_第1页
第1页 / 共5页
CPU与GPU融合大势所趋.doc_第2页
第2页 / 共5页
CPU与GPU融合大势所趋.doc_第3页
第3页 / 共5页
CPU与GPU融合大势所趋.doc_第4页
第4页 / 共5页
CPU与GPU融合大势所趋.doc_第5页
第5页 / 共5页
亲,该文档总共5页,全部预览完了,如果喜欢就下载吧!
资源描述

1、1CPU 与 GPU 融合大势所趋2009 年 12 月 9 日从国外媒体传出消息称,英特尔将收购图形处理器(GPU)厂商 Nvidia,目前无法确定的只是价格问题。鉴于英特尔和Nvidia 在芯片产业的地位,这一条消息很快占据了很多媒体的头条。 实际上,2009 年处理器领域最重要的变化之一就是集成了图形处理器 GPU 的新型处理器异军突起,并已成为下一代通用处理器的发展方向。继 Nvidia 公司和 AMD 公司率先采用这一结构后,英特尔公司正在加速开发采用这种结构的 32 纳米的 Westmere 处理器。此外,由于 GPU 理论上的浮点运算性能已经大大超越了通用处理器。CPU 加上 G

2、PU 已经成为超级计算发展的重要方向。引人注目的是,我国新开发成功的“天河 1 号”超级计算机也采用了上述的 CPU 加上 GPU 的结构。而最新的消息是,AMD已经宣布其将剥离其生产线,而将重点转向融合 CPU 与 GPU 为一体的Fusion 芯片 APU,也是这一趋势的一个具体体现。 用 GPU 处理非图形运算 多核处理器早已成为业界的主流。但是,4 核的同构处理器并不一定能发挥 4 倍的性能。以目前 Intel 功能最强的 Corei7 处理器为例,其结构方面相比上代 Core2Quad 发生了天翻地覆的变化:引入三级缓存、高速 QPI 总线、三通道 DDR3 内存控制器、超线程技术和

3、诸多内核及指令集2优化等;然而测试表明,这些技术共同作用的结果是:同频率下 i7965的综合性能比上代 QX9770 仅提升约 20,很难再有单核 PentiumD 到双核 Core2Duo 那种飞跃式提升。另外,将 AMD 的 Phenomll 处理器与Phenom 处理器相比,其性能的提升主要缘于 45nm 工艺带来的高频率,其中核心结构优化的贡献仅占 5。 不久前美国 Sandia 国家实验室的一项模拟测试结果表明:对于超级计算机而言,由于受存储机制和内存带宽的制约,8 核之后的 16 核、32核以至于 64 核通用处理器可能会引起效率的大幅度下降。这说明,多核处理器核的数目并不能无限制

4、地增加。另外,有消息说,美国 Sun 公司未能如期开发出 16 核处理器,除受并购因素影响外,也有这方面的原因。在这种情况下,图形处理器 GPU 异军突起。过去在处理图形渲染时,根据表达三维空间的三角形数量或在三角形着色时纹理清晰度的不同,各级处理的负载将会发生变化。在传统结构中,由于各级处理的运算单元数量是事先决定的,因此,在负载发生变化的情况下,固定的运算单元数量会成为阻碍系统整体处理能力提高的瓶颈。 近年来,研究人员对图形指令结构进行了深入研究。它们发现标量数据流所占比例正在逐年提升,如果还是坚持 SIMD(单指令多数据流)的设计会让效率下降。早期的 GPU,针对图形处理的关键计算将处理

5、单元分为顶点着色器、光栅化引擎、纹理贴图单元等不同部分,分别完成不同的计算任务。而新一代 GPU 推出了统一渲染结构,统一的计算单元取代了上述的不同单元。这种结构集成了多个支持顶点坐标计算及三角形着3色等多级处理的运算单元,各运算单元的任务可以根据各级处理的负载进行调整。该统一的计算单元被称为统一标量着色器,也被称做流处理器。每个流处理器只完成一维标量的操作。 为此,研究人员对 GPU 做出变革:流处理器不再针对矢量设计,而是改成标量 ALU(算术逻辑运算器)单元。也就是说,把 GPU 的 Shader(着色器)单元内部的运算器 ALU 完全拆散,设计成为各自独立的流处理器,并分配相应的指令发

6、射端和控制单元。这样的结构在面对任何形式的指令(包括组合指令)时,都能保证最高的执行效率。即这种结构不仅拥有很强的图形处理能力,而且能够处理非图形运算指令。 新结构的出现带动了在以浮点运算为中心的通用处理中使用 GPU 的研究。理论上来讲,只要是浮点运算指令都可以交给 GPU 来处理。为了把 GPU 改造成为真正的通用处理器,研究人员在大规模扩充流处理器数量的同时,也对内核结构进行了优化与改进,使其更适合进行超大规模的并行数据处理。 GPU 不断进步 2006 年 11 月,Nvidia 公司推出基于 G80 结构的 GeForce8800GPU。接着,2007 年 5 月,AMD 公司发布了

7、 RadeonHD2000 系列 GPU 产品。这两款产品都采用了统一渲染结构。这种结构使 GPU 的运算单元变得通用,并可以根据图形渲染处理的负载,灵活地改变运算单元的任务。 在传统结构中,由于各级处理的运算单元数量是事先决定的,因此,4在负载发生变化的情况下,固定的运算单元数目会成为阻碍系统整体处理能力提高的瓶颈。统一渲染结构的出现使得在以浮点运算为中心的通用处理中也可以使用 GPU。采用这种结构后,GPU 运算单元可在每次处理时读入指令和数据,使其通用性得到了提高。因而,可以说 GPU 提高了计算机的浮点运算指令的执行速度。 2008 年美国克莱公司推出企业级电脑 CXI,使用了 Tes

8、laCl060 主板。由于该主板有图形处理器 GPU,因而显著地提高了 CXl 超级电脑的运行速度。源于此,GPU 也被称为“电脑加速器” 。对于浮点运算,GPU 使用专门的运算器,能够高速地进行并行处理,从而提高计算速度。以日本东京工业大学为例,2008 年 lO 月,它们采用 170 个 C1070 处理器后,将其超级电脑 TSUBAME 的系统综合运行速度从每秒 67 兆次提高至每秒 77 兆次。正因为如此,有人将 GPU 处理器称为加速处理器。 不过,GPU 目前面对的问题是,只能读取它专用的存储器,不能读取电脑主存储器。GPU 处理器将需要的数据复制到供 GPU 使用的存储器中,并调

9、用在 GPU 中执行的函数;此后,GPU 根据处理器的指令对互相独立的数据使用多个内核进行并行处理;最后,处理器会从 GPU 所使用的存储器中获得处理结果。正因为此,在某些情况下GPU 不能充分发挥其浮点运算速度极快的优点。如上所述,现在的 GPU 可以认为是一个多功能的并行计算处理器。 CPU+GPU 组合优势明显 5CPU 和 GPU 各有所长。一般而言,CPU 擅长处理不规则数据结构和不可预测的存取模式,以及递归算法、分支密集型代码和单线程程序。这类程序任务拥有复杂的指令调度、循环、分支、逻辑判断以及执行等步骤。例如,操作系统、文字处理、交互性应用的除错、通用计算、系统控制和虚拟化技术等

10、系统软件和通用应用程序等等。而 GPU 擅于处理规则数据结构和可预测存取模式。例如,光影处理、3D 坐标变换、油气勘探、金融分析、医疗成像、有限元、基因分析和地理信息系统以及科学计算等方面的应用。 尽管在不少方面 GPU 表现优异,但在一段时间内,还会维持 CPU 与GPU 各自发展的态势,它们可以继续在各自擅长的领域发挥作用,而未来的演进方向是相互取长补短,走向融合。从 CPU 角度来讲,为了提高处理能力,以前是多线程,目前是多核,将来的发展方向是众核。CPU 正向不断增加吞吐量和提高能效性的方向发展;而从 GPU 角度来讲,其可编程性能本来是在芯片内部固化的程序,然后发展到局部可编程,最后是完全可编程。也就是说,GPU 是在提高所处理的吞吐量的同时,向通用处理的方向发展。 今后,CPU+GPU 的异构计算结构将引领处理器的发展方向,这也成为下一代超级计算的发展方向。目前设计 GPU+CPU 架构平台的指导思想是:让 CPU 的更多资源用于缓存,GPU 的更多资源用于数据计算。把两者放在一起,不但可以减小在传输带宽上的花销,还可以让 CPU 和 GPU 这两个PC 中运算速度最快的部件互为帮衬。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文资料库 > 学科论文

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。