多核处理器-兰州理工大学研究生院兰州理工大学研.ppt

上传人:ga****84 文档编号:448679 上传时间:2018-10-08 格式:PPT 页数:36 大小:2.19MB
下载 相关 举报
多核处理器-兰州理工大学研究生院兰州理工大学研.ppt_第1页
第1页 / 共36页
多核处理器-兰州理工大学研究生院兰州理工大学研.ppt_第2页
第2页 / 共36页
多核处理器-兰州理工大学研究生院兰州理工大学研.ppt_第3页
第3页 / 共36页
多核处理器-兰州理工大学研究生院兰州理工大学研.ppt_第4页
第4页 / 共36页
多核处理器-兰州理工大学研究生院兰州理工大学研.ppt_第5页
第5页 / 共36页
点击查看更多>>
资源描述

1、多核处理器,兰州理工大学 包仲贤,什么是多核处理器?,多核处理器是指在一枚处理器芯片上集成两个或多个完整的计算引擎(内核)。换句话说,将多个物理处理器核心整合入一个芯片中。双核处理器 =一个处理器上包含2个内核多核处理器 = 一个处理器上包含2个或多个内核,微处理器技术发展的主要历史回顾,90年代增大指令的并行发射能力指令级并行性自身存在很大限制,超标量技术已经到了尽头;VLIW(超长指令字)存在二进制代码不兼容,对编译要求高的缺点;,90年代末期提高主频流水线不断细化,指令间相关性导致系统复杂性大大提高;Memory Wall,存储器性能滞后,严重影响整体性能;功耗问题严重;,一直以来,处理

2、器芯片厂商都通过不断提高主频来提高处理器的性能。但随着芯片制程工艺的不断进步,从体系结构来看,传统处理器体系结构技术面临瓶颈,晶体管的集成度已超过上亿个,很难单纯通过提高主频来提升性能,而且主频的提高同时带来功耗的提高,也是直接促使单核转向多核的深层次原因;从应用需求来看,日益复杂的多媒体、科学计算、虚拟化等多个应用领域都呼唤更为强大的计算能力。在这样的背景下,各主流处理器厂商将产品战略从提高芯片的时钟频率转向多线程、多内核。,微处理器技术发展的主要历史回顾,本世纪前5年多线程只能屏蔽线程的存储器访问延迟,增加系统吞吐率(15左右),并未提高单个单线程的执行速度;,当前和未来多核充分利用摩尔定

3、律带来的芯片面积,放置多个微处理器内核;通过开发程序内的线程级或进程级并行性提高性能,多核的由来如果将处理器的运行频率比做高速公路的最高限速,前端总线则是这条道路容纳的车道数,在两者都不能再进一步时,还有什么办法可以解决交通堵塞呢?修建一条同样的道路显然就可以解决问题了,这与双核的工作方式本质上是一样的道理。事实上,在服务器领域,多路处理器系统已经不是新鲜事了;随着工艺的进步,将双路系统集成到处理器内部也是可以实现的。,2018年10月8日星期一,7,多核的出现,1985年,英特尔发布了80386DX,它需要与协微处理器80387相配合,从而完成需要大量浮点运算的任务。 80486则将8038

4、6和80387以及一个8KB的高速缓存集成在一个芯片内。从一定意义上,80486可以称为多核处理器的原始雏形。,双核处理器的发展,高端的RISC处理器中早在上个世纪末,HP和IBM就已经提出双核处理器的可行性设计,并成功推出了拥有双内核的HP PA8800和IBM Power4处理器。 Sun也在2003年10月微处理器论坛中,发表双核心UltraSPARC处理器 x86平台 AMD和Intel在2004年公布了各自的双核计划,AMD率先在服务器和工作站领域引入双核架构,而Intel则是率先在台式机领域引入双核技术!,2018年10月8日星期一,9,目前的多核处理器的推出已经愈加频繁,在推出代

5、号为Niagara的8核处理器之后,Sun还计划在今年年中推出Niagara 2处理器。IBM的Cell处理器,结合了1个PowerPC核心与8个协处理器构成的Cell 微处理器已经正式量产,并应用于PS3主机、医学影像处理、3D计算机绘图、影音多媒体等领域。,2018年10月8日星期一,10,IA阵营正式引入多核架构,而真正意义上让多核处理器进入主流桌面应用,是从IA阵营正式引入多核架构开始。AMD抢先手推出64位处理器后,英特尔才想起利用“多核”这一武器进行“帝国反击战”。2005年4月,英特尔仓促推出简单封装双核的奔腾D和奔腾四至尊版840。AMD在之后也发布了双核皓龙(Opteron)

6、和速龙(Athlon) 64 X2处理器。2006年5月,英特尔发布了其服务器芯片Xeon系列的新成员双核芯片Dempsey。该产品使用了65纳米制造工艺,其5030和5080型号的主频在2.67GHz和3.73GHz之间。紧随其后的6月份,另一款双核芯片Woodcrest(Xeon 5100系列)登场。英特尔声称与奔腾D系列产品相比,其计算性能提高了80%,能耗降低了20%。,具体双核处理结构的介绍,AMD和Intel不同的体系结构,”双核” 两个处理器核心直接连接到同一个内核上,核心之间以芯片速度通信 Intel”双芯” 采用多个核心共享前端总线的方式,把两个独立的内核封装在一起 。,对I

7、ntel和AMD双核处理器技术分析及比较,AMD的双核是把两颗内核Core(s)集成在一块晶片硅上,而Intel的双核其实是用电路将两个独立的Packet(s)缝合在一起。Intel的双核架构会遇到多个内核争用总线资源的瓶颈问题。AMD直连架构(也就是通过超传输技术让CPU内核直接跟外部I/O相连,不通过前端总线)和集成内存控制器技术,使得每个内核都自己的高速缓存可资遣用,都有自己的专用车道直通I/O,没有资源争抢的问题,实现双核和多核更容易。,从上面看起来,Intel的双核心处理器在技术规格上落后于AMD双核心处理器 在价格上,Intel双核心处理器的价格远远低于AMD双核心处理器的价格,因

8、此极具市场竞争力!,IBM的POWER 5,POWER 5 MCM模块中包含4枚POWER 5芯片,每个POWER 5都是采用共享二级缓存的双核处理器,同时拥有内存控制器和一条高带宽的CHIP - TO - CHIP总线。这样,MCM模块内的四枚POWER 5处理器便可以通过这条总线联结起来,按照同样的方法可以将多个MCM模块联结成一套有机系统,结构上相当富有弹性,这也是POWER 5可很好胜任超级计算机要求的一大原因。很明显,AMD的Opteron同IBM的架构比较接近两者都拥有专门的芯片见连接总线和整合内存控制器,但差异在与IBM一开始就采用了共享缓存设计,而AMD则使用独立缓存,由专门的

9、逻辑单元实现缓存同步。至于Intel公司,至少要等到2008年才会引入类似的架构,失去了战胜对手的最好时机。,2018年10月8日星期一,17,2006年7月23日,英特尔基于酷睿(Core)架构的处理器正式发布。2006年11月,又推出面向服务器、工作站和高端个人电脑的至强(Xeon)5300和酷睿二四核至尊版系列处理器。与上一代台式机处理器相比,酷睿二双核处理器在性能方面提高40%,功耗反而降低40%。作为回应,7月24日,AMD也宣布对旗下的双核Athlon64 X2处理器进行大降价。,2018年10月8日星期一,18,由于功耗已成为用户在性能之外所考虑的首要因素,两大处理器巨头都在宣传

10、多核处理器时,强调其“节能”效果。英特尔发布了功耗仅为50瓦的低电压版四核至强处理器。而AMD发布了“Barcelona”四核处理器,据称其功耗将不会超过95瓦。 多核技术在应用上的优势有两个方面:为用户带来更强大的计算性能;更重要的,则是可满足用户同时进行多任务处理和多任务计算环境的要求。,片上多核处理器体系结构,CMP (Chip Multi-Processor)将多个计算内核集成在一个处理器芯片中,从而提高计算能力同构多核Intel,AMD异构多核Cell (主处理核+协处理核),多核处理器关键技术,核间通信,硬件结构必须支持核间通信CMP处理器各核心执行的程序之间需要进行数据共享和同步

11、高效的通信机制是CMP处理器高性能的重要保障主流片上高效通信机制基于总线共享的cache结构基于片上的互连结构,总线共享cache结构,每个CPU内核拥有共享的二级或三级cache (last level cache),用于保存比较常用的数据,并通过连接核心的总线进行通信。优点结构简单通信速度高缺点基于总线的结构可扩展性较差,多级Cache又引发一致性问题,多级Cache又引发一致性问题。采用何种Cache一致性模型和机制都将对CMP整体性能产生重要影响。Cache一致性机制主要有总线的侦听协议和基于目录的目录协议。目前的CMP系统大多采用基于总线的侦听协议。,基于片上互连的结构,每个CPU核

12、心具有独立的处理单元和cache,各个核心通过交叉开关或片上网络等方式连接在一起,各个核心间通过消息通信。优点可扩展性好数据带宽有保证缺点硬件结构复杂软件改动较大,如何有效地利用多核技术?,现状客户端应用程序开发者多年来一直停留在单线程世界,生产“顺序软件”。多核时代到来后软件开发者必须找出新的开发软件的方法,选择程序执行模型。,程序执行模型,编译器设计人员与系统实现人员之间的接口编译器设计人员将一种高级语言程序按一种程序执行模型转换成一种目标机器语言程序系统实现人员该程序执行模型在具体目标机器上的有效实现程序执行模型的适用性决定多核处理器能否以最低的代价提供最高的性能,总线设计 操作系统设计

13、 低功耗设计 存储器墙 可靠性及安全性设计,Intel Core微架构,Intel双核,Intel Conroe,Intel Core微架构,Intel四核,Intel四核,AMD双核,AMD四核酷龙,Large shared L3 cache shares data between cores efficiently while helping reduce latency to main memory Dedicated L1 and L2 cache per core helps performance of virtualized environments and large databases by reducing cache pollution associated with a shared L2 cache The L1 cache of AMD Opteron processors can handle double the number of loads per cycle as Second-Generation AMD Opteron processors to help keep CPU cores busy,Cell处理器架构,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文资料库 > 毕业论文

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。