ImageVerifierCode 换一换
格式:DOCX , 页数:7 ,大小:158.62KB ,
资源ID:3042418      下载积分:20 文钱
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,省得不是一点点
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.wenke99.com/d-3042418.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: QQ登录   微博登录 

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(存储器的的未来发展及小结.docx)为本站会员(11****ws)主动上传,文客久久仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知文客久久(发送邮件至hr@wenke99.com或直接QQ联系客服),我们立即给予删除!

存储器的的未来发展及小结.docx

1、存储器的的未来发展及小结 对存储器带宽的追求成为系统设计最突出的主题。 SoC 设计人员无论是使用 ASIC还是 FPGA 技术,其思考的核心都是必须规划、设计并实现存储 器。系统设计人员必须清楚的理解存储器数据流模式,以及芯片设计人员建立的端口。即使是存储器供应商也面临 DDR 的退出,要理解系统行为,以便找到持续发 展的新方法。 曾经在斯坦福大学举办的热点芯片大会上,寻求带宽成为论文讨论的主题,设计人员介绍了很多方法来解决所面临的挑战。从这些文章中,以及从现场工作的设计人员的经验中,可以大概看出存储器系统体系结构今后会怎样发展。 存储器壁垒 基本问题很明显:现代 SoC 时钟频率高达吉赫兹

2、,并且具有多个内核,与单通道 DDR DRAM 相比,每秒会发出更多的存储器申请。仅仅如此的话,会有很显然的方案来解决这一问题。但是,这背后还有重要的精细结构,使得这一问题非常复杂,导致有各种各样的解决办法。 SoC 开发人员关注的重点从高速 时钟转向多个内核 , 这从根本上改变了存储器问题。不再是要求一个 CPU 每秒有更高的兆字节( MBps) ,现在,我们面临很多不同的处理器 经常是很多不同类型的处理器,都要求同时进行访问。而且,存储器访问的主要模式发生了变化。科学和商业数据处理任务 通常涉及到大量的局部访问,或者更糟糕的是采用相对紧凑的算法很慢的传送大量的数据。配置适度规模的本地 SR

3、AM 或者高速缓存,这类任务的一个 CPU 对主 存储器的需求并不高。 DRAM 芯片设计人员利用了这种易用性,以便实现更高的密度和能效。相应的,以可预测的顺序申请 大块数据时, DRAM 实现了最佳比特率 它允许块间插。如果 SoC 不采用这种常用模式,存储器系统的有效带宽会降低一个数量级。 新的访问模式 不好的是, SoC 的发展使得 DRAM 设计人员的假设难以实现。多线程以及软件设计新出现的趋势改变了每一内核访问存储器的方式。多核处理以及越来越重要的硬件加速意味着很多硬件要竞争使用主存储器。这些趋势使得简单的局部访问变得复杂, DRAM 带宽与此有关。 多线程意味着,当一个存储器申请错

4、过其高速缓存时, CPU 不会等待:它开始执行不同的线程,其指令和数据区会在与前面线程完 全不同的物理存储区中。仔 细的多路高速缓存设计有助于解决这一问题,但是最终,连续 DRAM 申请仍然很有可能去访问不相关的存储区,即使每一线程都仔细的优化了其存储器组织。相似 的,竞争同一 DRAM 通道的多个内核也会扰乱 DRAM 访问顺序。 软件中的变化也会产生影响。表查找和链接表处理会对大数据结构产生随机分散存储器访问。数据包处理和大数据算法将这些任务从控制代码转移到大批量数据 处理流程,系统设计人员不得不专门考虑怎样高效的处理它们。虚拟化把很多虚拟机放到同一物理内核中,使得存储器数据流更加复杂。

5、传统的 解决方案 这些问题并不是什么新问题 只是变复杂了。因此,芯片和系统设计人员有很多成熟的方法来满足越来越高的基带带宽需求,提高 DRAM 的访问效率。这些方法包括软件优化、高速缓存以及部署 DRAM 多个通道等。 大部分嵌入式系统设计人员习惯于首先会想到软件优化。在单线程系统中,软件在很大程度上过度使用了存储器通道,能耗较高。但是在多线程、多核系统中, 软件开发人员对 DRAM 控制器上的实际事件顺序的影响很小。一些经验表明,他们很难改变实际运行时数据流模式。 DRAM 控制器可以使用重新排序和公平算 法,编程人员 对此并不清楚。 高速缓存的效率会更高 如果高速缓存足够大 ,能够显著减少

6、 DRAM 数据流。例如,在嵌入式多核实现中,相对较小的 L1 指令高速缓存与规模适度的 L2一同工作,能够完全容纳所有线程的热点代码,有效 的减少了对主存储器的指令获取数据流。相似的,在信号处理应用中,把相对较少的数据适配到 L2 或者本地 SRAM 中,可以去掉滤波器内核负载。要产生较大的 影响,高速缓存不一定要实际减少 DRAM 申请总数量 只需要保护主要申请源不被其他任务中断,因此,编程人员能够优化主要任务。 当芯片设计人员无法确定将要运 行在 SoC 中的各种任务时,则倾向于只要成本允许,提供尽可能多的高速缓存:所有 CPU 内核和加速器的 L1 高速缓存、大 规模共享 L2,以及越

7、来越大的管芯 L3。在热点芯片大会上,从平板电脑级应用处理器到大量的服务器 SoC,有很多高速缓存的实例。 在低端, AMD 的 Kabini SoC (图 1) 就是很有趣的研究。 AMD 资深研究员Dan Bouvier 介绍了这一芯片,它包括四个 Jaguar CPU 内核,共享了 2 兆字节( MB) L2 高速缓存,而每个 Jaguars 有 32 千字节( KB)指令和数据高速缓存 并不是非传统的 协议。更惊奇的是芯片的图形处理器,除了常用的颜色高速缓 存以及用于渲染引擎的 Z缓冲,还有它自己的 L1指令高速缓存和 128 KB L2。 图 1.AMD 的 Kabini SoC 目

8、标应用是平板电脑,但是仍然采用了大规模高速缓存,显著提高了存储器带宽。 而在高端则是 IBM 的 POWER8 微处理器(图 2), IBM 首席网络设计师 Jeff Stuecheli 介绍了这一款芯片。这一 650 mm2、 22 nm 芯片包括 12 个 POWER 体系结构 CPU 内核,每个都有 32 KB 指令和 64 KB 数据高速缓存。每个内核还有自 己512 KB的 SRAM L2高速缓存, 12 L2共享大容量 96 MB的嵌入式 DRAM L3。 Stuecheli介绍说,三级连续高速缓存支持每秒 230 吉字节( GBps)的存储器总带宽。有趣的是,芯片还含有一个小容量

9、会话存储器。 图 2.IBM 的 POWER8 体系结构在 SoC 管芯上实现了三级高速缓存。 在这两个 SoC 之间是为微软的 XBOX One 提供的多管芯模块(图 3),微软的 John Snell 在大会上对此进行了介绍。模块含有一个 SoC 管芯,提供了丰富的存储器资源。 SoC 有 8 个 AMD Jaguar 内核,分成两组,每组 4 个。每一内核有 32 KB 的 L1 指令和数据高速缓存。每 4 个一组的 CPU 内核共享一个 2 MB L2。此外,管芯上还有 4 个 8 MB 共享 SRAM,它们至少为 CPU 提供了 109 GBps 的带宽。 图 3.微软的 XBOX

10、One结合了大容量高速缓存、本地 SRAM以及模块内 DRAM,以低成本实现了更大的带宽。 使用 DRAM 而 XBOX One SoC 还揭示了更多的信息。无论您有多大的管芯高速缓存,都无法替代巨大的 DRAM 带宽。 SoC 管芯包括四通道 DDR3 DRAM 控制器,为模块中的 8 GB DRAM 提供了 68 GBps 峰值带宽。 DRAM 多通道的概念并不限于游戏系统。几年前,数据包处理 SoC 就开始提供多个完全独立的 DRAM 控制器。但是这种策略带来了挑战。存储器优化会更 加复杂,系统设计人员必须决定哪种数据结构映射哪一通道或者控制器。当然,还有可能要求自己的 DRAM 控制器

11、完成某些高要求任务,在一些嵌入式应用中,这 些控制器是非常宝贵的。而 DRAM 多通道会很快用完引脚,用尽 I/O 功耗预算。 即使在 FPGA 设计中,引脚数量也是一个问题,设计人员应能够非常灵活的重新组织逻辑,选择较大的封装。 Altera 的高级系统开发套件(图 4)电路 板主要用于原型开发,实现宽带设计,应用领域包括 HD 视频处理、 7 层数据包检查,或者科学计算等,这是非常有用的套件。 图 4.Altera的高级系统开发套件极大的满足了两片大规模 FPGA的存储器需求。 Mark Hoopes 是 Altera 广播应用专家,解释了电路板应提供很大的存储器带宽,不需要详细的知道用户

12、在两片大规模 FPGA 中实现的某些设计。因此,设计 电路板时, Hoopes 检查了现有 Altera 视频知识产权( IP)的存储器使用模式,调研了外部设计团队的需求。 结果让人清醒。 Hoopes 说: “ 当您查看每一项功能时,看起来都需要存储器。但是,当您把功能结合起来后,其需求非常大。在一个例子中,应用程序开 发人员要求为每一片 FPGA 提供全 256 位宽 DDR3 接口以及四通道 QDR II SRAM。即使是 1932 引脚封装,这也无法实现。因此,设计人员最终采用了四个 SRAM块以及一个 192 位 DDR3 接口。 Hoopes 指出了多个存储器控制器对于 SoC 非

13、常重要。 他说, IP 开发人员通常能够熟练的在子系统级优化存储器,甚至能够提供他们自己经过优化的 DRAM控制器。还可以让一个 DRAM 通道专门用于子系统,让其他 IP 模块运行子系统设计人员的优化措施。 未来发展 在开发板上还有另一个有趣的模块:每片 FPGA连接了一个 MoSys带宽引擎。这一芯片含有 72 MB 的 DRAM,组织成 256 块来仿真 SRAM 时序,调整用于表存储等局部访问应用。非常独特的是,芯片使用了一个高速串行接口,而不是常用的DDR 或者 QDR 并行接口。 Hoopes 强调说: “ 接口是我们包含这些组成的一个原因 。我们在 FPGA 中有未使用的收发器。

14、 ” 实际是, MoSys 先使用了它们。 三种理念 我们都已经分别了解了,能够融合来定义今后的存储器体系结构。这些理念是大规模嵌入式存储器阵列、使用了容错协议的高速串行接口,以及会话存储器。 MoSys 芯片和 IBM POWER8 体系结构很好的体现了前两种理念。 CPU SoC 通过第二个芯片与 DRAM 通信: Centaur 存储器缓冲。一个 POWER8 能够连接 8 个Centaurs,每个都通过一个专用每秒 9.6 吉比特 ( Gbps)的串行通道进行连接。每个 Centaur 含有 16 MB 存储器 用于高速缓存和调度缓冲,以及四个 DDR4 DRAM 接口,还有一个非常智

15、能的控制器。 IBM 将 Centaur 芯片放在 DRAM DIMM上,避免了在系统中跨过 8 个 DDR4 连接器。这样,设计集中了大量的存储器,最终明智的采用了快速串行链接,由重试协议进行保护。 另一热点芯片实例来自 MoSys,在大会上,他们介绍了其下一代 Bandwidth Engine 2。根据所采用的模式, Bandwidth Engine 2 通过 16 个 15 Gbps的串行I/O 通路连接处理子系统。芯片含有四个存储器分区,每个包括 64 块 32K 72 位字:在第一代,总共 72 MB。很多块通过智能的重新排序控制器以及大容量片内SRAM 高速缓存,隐藏了每一比特单元

16、的动态特性。 除了 Centaur 芯片所宣布的特性, Bandwidth Engine 2 还在管芯上提供了会话功能。各种版本的芯片提供板上算术逻辑单元,因此,统计采集、计量,以及原子算法和索引操作等都可以在存储器中进行,不需要将数据 实际移出到外部串行链路上。内部算术逻辑单元( ALU)很显然可以用于旗语和链接表应用。而其他的硬件使得芯片有些专用的特性。 MoSys 技术副总裁 Michael Miller 介绍了四种不同版本的 Bandwidth Engine 2,它们具有不同的特性。 今后的篇章可能不是由 CPU 设计师撰写的,而是取决于低成本商用 DRAM 供应商。 Micron 技

17、术公司具体实现了混合立方存储器( HMC)规范,开发 原型,宣布了他们的接口合作伙伴。 HMC 是一组 DRAM 块,堆叠成逻辑管芯,通过一组高速串行通路连接系统的其他部分。 Micron 并没有公开讨论逻辑管芯的功能,据推测,可能含有 DRAM 控制和缓冲,以仿真 SRAM 功能,还有可能包括专用会话功能。 逻辑嵌入在存储器子 系统中这一理念包括了很有趣的含义。能够访问大量的逻辑栅极和高速缓存的本地 DRAM 控制器实际上可以虚拟化去除劣化存储器带宽的 所有 DRAM芯片特性。 IBM还在热点芯片大会上介绍了 zEC12大型机体系结构,它在硬盘驱动直至它所控制的 DRAM DIMM 上应用了 RAID 5 协议,实际上将 DRAM块用作多块、并行冗余存储器系统。相同的原理也可以用于将大块 NAND 闪存集成到存储器系统中,提供了 RAID 管理分层存储,可 以用作虚拟大容量 SRAM。 毫无疑问对 SoC 的需求越来越大。因此,串行链路和本地存储器,特别是本地 智能化会完全改变我们怎样思考存储器体系结构。

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。