1、1ASIC 仿真加速系统编译优化策略研究摘要:随着微处理器设计技术的发展,基于硬件仿真加速器的系统验证已成为业内公认的最有效的系统验证方法,而系统仿真频率是硬件仿真加速器验证系统最重要的性能指标之一.本文以某款国产高性能通用微处理器 FT-xx 在 ASIC 仿真加速平台上的系统仿真加速为工程背景,通过调整编译选项、分析编译结果展开研究.首先分析了 ASIC 硬件仿真加速的加速原理,然后重点研究了逻辑资源数量、通用寄存器类型设计映射方式、特殊寄存器类型设计映射方式对系统仿真频率的影响.研究结果表明,当待验证设计的规模一定时,ASIC 仿真器的逻辑资源并非越多越好、memorysize 值的选取
2、存在一个较佳范围、对于某些特殊的寄存器采用强制映射能极大地提高系统仿真频率. 关键词:硬件仿真加速器;ASIC;频率;仿真加速 中图分类号:TP302.1 文献标识码:A An Effective Memory System Verification Method Based on ASIC Emulation Acceleration System ZHOU Hai-liang, BAI Ying, ZHANG Shun, LUO Li (College of Computer, National Univ of Defense Technology, Changsha, Hunan 410
3、073, China) Abstract: With the development of microprocessor, emulation accelerator based verification has become the most 2effective system verification method. And the system frequency is one of the most important indexes of the emulation acceleration system. Based on the engineering application o
4、f the system verification to a homemade high performance microprocessor FT-X on a ASIC emulator, research was done by tuning the compile parameters assisted with compile results analysis. The acceleration mechanism of ASIC accelerator was analyzed. And then, the effect of domain number, normal regis
5、ter design mapping method, special register design mapping method on the system emulation frequency was studied. The results show that its not a good idea to increase the domain number as much as possible, because there exists a sound range of memory size when the design under test is fixed. And the
6、 system emulation frequency was increased sharply by the application of forcible mapping method to some special blocks on the other hand. Key words: hardware acceleration system; ASIC; frequency; emulation acceleration 随着处理器技术的飞速发展,微处理器设计规模的增大,处理器设计已达上亿逻辑门规模.如此大规模的集成电路设计给系统验证带来了极大的挑战1-2.传统的基于功能检测、模拟
7、测试等软件测试方法所花费的时间骤升到以天为单位,已成为影响产品上市时间的最大瓶颈,这是3企业在竞争日益激烈的今天越发难以承受的3.即使是日益流行的 IP 复用技术,传统的硬件描述语言(Hardware Description Language,HDL)仿真器也难以胜任.而且越来越多的应用需要大量实时数据的处理(如视频等) ,这就要求验证环境具有接近真实系统的仿真频率. 用 FPGA 来搭建 ASIC 设计的验证环境能解决仿真频率上的很多问题.然而,ASIC 设计者在使用 FPGA 所搭建的验证平台进行测试、调试的时候也会面临很多挑战.最主要的是,与复杂的 ASIC 设计尤其是通用微处理器设计相
8、比,FPGA 的容量十分有限,一个 ASIC 设计的验证平台往往需要多片 FPGA,由此引入了一个资源划分的问题.编译优化往往需要通过多次重复划分、综合、板上实现不断尝试,造成巨大的时间开销,且效果不一定最佳4.此外还存在容量、I/O 等瓶颈、调试不方便等问题5. 传统测试方法及 FPGA 板仿真的缺陷,既对现有的验证手段提出了严峻的挑战,同时也促使新型的验证思想和验证手段应运而生,仿真加速器就是其中的典型代表.EDA 公司瞄准了这一市场需求,在综合算法、划分策略、布局方法等方向进行了研究,通过将 FPGA 分割与综合结合起来、将分割提前到 RTL 级、多片 FPGA 之间的时间预算自动包含在
9、综合驱动的分割算法等技术的突破与实现,开发出了硬件仿真加速器. 当前的硬件仿真加速器主要分为基于 ASIC 定制芯片和基于 FPGA 两种类型,前者调试能力相对较强,操作相对较为简单,不涉及具体的资源划分、布局等,但仿真速度相对较低;后者仿真速度相对较高,但调试能力相对4较差,对复杂时序 trigger 的支持较弱,存储资源相对不足,资源划分策略对仿真频率的影响较大等.文献6基于 ASIC 硬件仿真加速器对一款面向平板和智能手机的芯片进行了系统加速仿真及功耗分析.文献7通过改变 Palladium 硬件仿真加速器重电源生成策略,提升了系统仿真性能并降低了对仿真资源的需求.基于硬件仿真加速器的芯
10、片验证已成为很多公司提高产品研发周期的重要手段,无论是互联网芯片8、手机芯片6、通用微处理器芯片9-10,还是其他集成电路设计11. 出于工程背景对调试能力需求的考虑,本文研究工作在基于 ASIC 仿真加速系统上展开.虽然 ASIC 硬件仿真加速器的整个编译过程已经高度自动化,资源映射、设计优化、调度算法等对验证师而言为“黑盒” ,但仍然也必须为验证工程师提供各种编译选项.因此,如何理解这些编译选项背后的技术实现、针对具体设计的具体需求选择最佳(或者说较佳)的编译选项组合,是一项既需理论指导、又需大量工程实践经验的技术挑战,也有重大的工程应用价值. 1 ASIC 仿真加速系统原理 1.1 系统
11、构成 ASIC 硬件仿真加速器的基本结构如图 1 所示,一般而言,一台 ASIC硬件仿真加速器由一至多个 board 构成,每个 board 分成多个domain,board 与 board 之间通过高速数据链路连接,当 board 数量不多、且 board 之间的链路带宽足够大时,仿真时是否跨 board 对仿真效果的影响甚微.因此,为简化问题,本章节没有考虑仿真资源跨 board 的影响.每个 domain 包含有一定数量的基本逻辑门,如与门、或门、非门等,同时5还包含一些寄存器结构,另外,考虑到集成电路设计的需求,在 domain内部还集成了一定数量的 sram 存储空间(本文中用 Es
12、ram 表示). 但为避免过多的 sram 增大 domain 的面积从而导致 domain 内部以及domain 之间逻辑门之间信号延时的恶化,Esram 的规模十分有限.为满足集成电路(尤其是微处理器)设计对存储空间的需求,在图 1 中 J2 所示位置处可添加大量的 sram 资源(本文将该部分 sram 用 Xsram 表示).为确保 domain 之间具有足够的通信带宽,可在图 1 中 J1,J2,J3 和 J4 位置处插入高速数据 domain-to-domain cable 在各 domain 之间建立高速互联网络. 为便于硬件仿真加速器与主服务器之间的通信,如 license 访
13、问、配置信息提取、命令的发送与接受等,在主服务器与硬件仿真加速器之间需建立互联网连接,同时,为便于仿真过程中大量数据的保存、加载,在主服务器与硬件仿真加速器之间还需建立高速光纤连接.为便于软硬协同验证,支持硬件仿真加速与软件仿真之间的切换,需要在软件仿真的宿主服务器与硬件仿真加速器之间经过 SA 卡的数据处理建立连接.为了能仿真待验证设计与各种 IO 设备之间的通信,ASIC 硬件仿真加速器可通过 HDDC calbe 外接 SATA 磁盘、显卡、网卡、USB 等多种 IO 设备.而上述连接与 domain 之间也必须通过 domain-to-buffer cable 连接,domain-to
14、-buffer cable 可连接在图 1 中 J1,J2 和 J3 所示位置.同时为便于仿真过程中属性数据的捕获,在每个 domain 周围还设置有专门的数据捕获模块 DCC. 1.2 加速原理 6传统的基于软仿真器的仿真操作中,硬件设计的各操作最终都是通过软件仿真器的宿主服务器 CPU 来完成的.而 CPU 的各操作的逻辑资源是十分有限的,假如有多个相同操作需执行,则必须串行处理.随着多核多线程技术的进步,虽然能在一定程度上提高操作的并行性,由于受线程并行性开发水平、数据相关性等的限制,也很难让所有逻辑资源并行工作,因此基于软仿真器的仿真频率基本仅能达到 kHz 规模.而在 ASIC 硬件
15、仿真器中,若设计输入为 RTL 代码,则 ASIC 硬件仿真器首先调用综合器将设计输入综合成网表文件,然后通过编译完成资源划分、逻辑优化、逻辑映射等操作.若设计输入为网表文件,则直接进行资源划分、逻辑优化、逻辑映射等编译操作.编译操作最重要的是资源映射,将设计中的各种操作映射成对应的逻辑门、寄存器、存储模块等,各单元之间通过走线串联,从而构成一个准原型系统.在该准原型系统中,除极少数资源需要分时复用外,几乎所有操作都是并行执行的,因此能达到仿真加速的效果,仿真频率可达 MHz 规模. 例如,若在软仿真器上仿真如图 2(a)所示的设计,为便于问题的描述,假定软件仿真器的宿主服务器为仅实现一个逻辑
16、部件的单 CPU,则所有操作在同一个 CPU 的硬件流水线上执行,且假定一条硬件流水线上仅实现了一个逻辑运算部件 Logic,且仅支持两操作数的逻辑运算.如图 2(c)所示,每实现一个“与”或“或”操作,都需执行一次流水操作.如首先执行“a | b”操作,然后从流水线计算结果通过寄存器或旁路逻辑送到下一操作所在流水线的相应流水站,依此类推.同时,由于数据相关性的影响,流水线中可能还会存在大量的 stall,具体的 stall 数量与7流水线实现密切相关.如此,完成图 2(a)所示设计的仿真,可能需要上 10 个时钟周期.而且需要注意到,图 2(a)所示设计极其简单,随着设计复杂性的增大,完成仿
17、真所需时间急剧增长.在实际使用中,软件仿真器的宿主服务器往往为多核 CPU,且可能实现由 SIMD(单指令多数据)结构,此外还可以通过循环展开等优化技术,使仿真频率有一定提高,能达 kHz 规模. 若采用 ASIC 硬件仿真器仿真图 2(a)所示设计,则通过资源映射,将在仿真器上组建图 2(b)所示准原型系统,除对 memory 的访存操作外,其余所有操作都在一个时钟周期内完成.实际使用中,能达到 MHz 规模,从而达到仿真加速的效果. 2 编译优化策略 虽然 ASIC 硬件仿真加速器的整个编译过程已经高度自动化,但仍然也必须为验证师提供各种编译选项,如 Domain 资源配置、小规模 reg
18、 信号的映射方式、memory 映射方式、Shallowmemory 利用率等. domain 资源配置:domain 配置对仿真频率的影响来自两方面,总数与组合方式.domain 总数直接决定可供映射的 ASIC 单元数量,而 domain的组合方式影响各 domain 之间的数据带宽. 小规模 reg 信号的映射方式:对于 reg 类型信号对应设计中的寄存器或者 memory,当 reg 的位数较小时,为尽可能提高仿真频率,往往映射到图 1 所示 domain 内部的 flip-flop 单元;当 reg 的位数较大时,为缓解逻辑资源的压力,往往映射到 Esram 单元或图 1 中 J2
19、所示片外Xsram. memory 映射方式:memory 在硬件仿真器中的映射方式有两种,映射8到片内 Esram 或者映射到片外 Xsram,仿真器需要对 memory 进行合理的映射,以提高仿真频率. Shallowmemory 的利用率:Memory 的优化方式有很多种,通过对memory 进行相应的转变来进行优化,针对不同的设计,采用合理的优化方式能极大地优化仿真编译频率.本文介绍其中的一种,该优化方式是针对设计中的 shallow memory 的利用率的不同来进行优化. 3 编译优化结果及分析 3.1 实验环境介绍 本文以某 EDA 公司的某型号 ASIC 硬件仿真加速器 C-X
20、X 为平台,以某国产高性能微处理器 FT-X 为应用背景,展开对 ASIC 硬件仿真加速器编译优化策略的研究. C-XX 硬件仿真器最大仿真规摸为 128 M 逻辑门,最小划分粒度为 4 M 逻辑门,同时片内片外配置了上百吉的存储资源.FT-X 为某国产高性能微处理器,最大支持 16 核,实现片上三级 cache 层次,单核配置时约为30 M 逻辑门规模,16 核配置时约为 70 M 逻辑门规模.同时,为调试需求,映射后的准原型系统中可能会包含一些黄金存储模型、检查器等设计,这也将通过占用逻辑资源、增大片外 memory 的端口数、增大连线延时等方式影响最后的仿真结果. 编译时 ASIC 硬件
21、仿真加速器将根据编译种子所对应的算法完成资源映射算法,不同的编译种子所获得的编译结果有较大出入,EDA 公司提供的数据为 30%左右的出入,在实际使用过程中,基本上也在这个范围内.因此,必须想办法尽量排除编译种子带来的影响.但并不能采用固定种子9的方式,在某种硬件设计及编译选项情景下的“最优”种子,当硬件设计背景修改或编译选项出现变动时并不能保证“最优”.因此,本文采用的降低编译种子影响的方法为“十次择优” ,即连续编译十次,找出最优的结果作为最终的编译结果.大量的工程应用数据表明,该方法基本能获得“准最优”的编译结果,从而基本上可以保证对编译选项研究数据的可信性. 3.2 硬件逻辑资源对优化
22、策略的影响 为研究 domain 数量对编译效果的影响,实验的参数配置情况见表 1. 上述实验结果表明,编译频率并非随资源数的增加而成正比增大,而是呈现一个先增后减的变化趋势.对于具体的设计及编译配置,存在一个最佳硬件资源数,在本实验配置下,该最佳 domain 数为 13.当逻辑资源小于该最佳逻辑资源配置时,紧张的可供调度的逻辑门将使各逻辑门之间的走线延时增加,从而导致仿真频率降低,且随着逻辑资源的进一步减少,仿真频率逐渐降低.当 domain 数无法确保所有设计都有基本逻辑单元映射时,编译无法完成.当逻辑资源大于该最佳逻辑资源配置时,制约仿真频率的不再是 domain 内部逻辑门之间的走线
23、延时.此时,过多的 domain 将增加 domain 之间的连线长度,domain 之间的连线延时将取代 domain 内部逻辑门间的走线延时成为关键路径.因此,当逻辑资源大于该最佳逻辑资源配置时,随着 domain 数的增加仿真频率反而降低,然后随 domain 数继续增大而趋于稳定. 需要说明的是,上面仅研究了 domain 数量对仿真频率的影响,并未10考虑 domain 的位置.在实际使用中,尤其涉及到跨板子之间的互联时,由于各 domain 之间的连接不尽相同,因此,在相同 damain 数量的前提下,domain 位置的不同也会在一定程度上影响最终的仿真频率.然而本文所基于的 A
24、SIC 硬件仿真加速器仅包含 2 个板子,且板子之间的互联光缆线较为充裕,domain 位置对最终仿真频率的影响不太明显.当然,当板子数较大、domain 之间的互联光缆线无法满足设计需求时,则需要考虑domain 位置的选择. 3.3 通用 reg 信号映射方式对优化策略的影响 如前所述,对于 reg 类型的设计,ASIC 硬件仿真加速器在编译时既可将其映射到片内的 flip-flop 单元,也可将其映射到 Esram 甚至 Xsram.为便于指导编译器的小规模 reg 信号映射方式,ASIC 硬件仿真器预留了一个编译选项 memorysize,当 reg 信号的宽度小于 memorysiz
25、e 时,将其映射到 flip-flop 单元,否则映射到 Esram 或 Xsram.为研究小规模 reg 信号映射方式对编译效果的影响,实验的参数配置情况见表 2. 在本配置条件下,系统仿真频率随 memorysize 的变化关系如图 4 中带矩形曲线所示.当 memorysize 较为适中如本例中的 64 时,其值的变化对仿真频率的影响几乎可以忽略.但当 memorysize 增大到一定临界值时本例中为 2 192,如图 4 中插图所示的逻辑门数随 memorysize的变化关系所示,当 memorysize 增大至 2 192 时,逻辑门数剧增至 78 M,远大于所给定的 28 M 的 ASIC 仿真资源,从而导致编译失败.另一方面,当 memorysize 较小时,过多的 reg 类型设计被映射到 Esram,flip-flop 与 Esram 之间的长线延时将导致仿真频率的降低. 同时我们也