1、生物信息处理专用计算机研究与开发(曙光4000H)验收报告,徐志伟中国科学院计算技术研究所中国科学院北京基因组研究所,课题研究背景课题执行情况评价 取得的成果的水平和作用研究队伍的建设和人才培养 组织管理工作下一步工作设想,主要内容,研究背景,人类基因组计划引爆生物信息的大发展计算成为了生物学家的重要研究工具蛋白质结构的预测序列联配和序列拼接 用于生物信息学的计算计系统不断升级普通的台式机工作站、服务器高性能的对称多处理器系统大规模并行计算机系统,生物数据库的增长趋势及挑战,到2004年底GenBank中的DNA序列总量已超过445亿碱基对 相对增长量和绝对增长量都很大摩尔定律庞大的基因数据库
2、为更加准确地进行生物信息的分析提供了可能算法的计算复杂度高对计算能力提出了挑战,解决方案之一:研制更复杂的通用巨型计算机系统,BlueGene/L:65536颗700MHz主频的PowerPC440360TFlops未来的1年之内规模再增加一倍 分子动力学,通用系统的优缺点,利用通用型巨型机的优点计算机用途广泛程序移植方便利用通用型巨型机的缺点费用高通用型巨型机的价格非常昂贵维护费用高(电力、制冷、场地、管理等)效率低性能提高的速度难以跟上生物信息处理的需要生物信息处理算法受计算机内硬件资源制约,生物信息学中算法的特点,生物信息学中还有很多算法(如各种基因组研究的算法)具有数据量较大、算法相对
3、简单、并行度较高、运算类型单一、重复性较强的特点,许多计算过程都可以归类于字符串的查找和比对等简单操作。通常对字符进行操作只需要816位数据宽度,计算类型多为各种简单的逻辑运算和算术运算,无需浮点计算,但需要进行大量的判断和转移。目前通用处理器的设计通常都采用32位或64位字长,集成有数个复杂的浮点计算单元,为了提高指令级并行一般都采用超标量技术,而为了提高系统的工作频率,几乎所有的通用处理器都采用了深度流水线技术。这些特点使得通用处理器在进行字符串操作时往往是英雄无用武之地,有些技术如深度流水线甚至会对计算带来负面影响,因为一旦发生转移预测失败,就需要清空流水线,因而会浪费很多时钟周期。因此
4、,用现有的大规模并行机或超级服务器等通用系统解决这些问题,既浪费系统的资源,使用维护也比较复杂,有些问题甚至无法在限定的时间内完成。,解决方案之二:研制专用的计算机系统,TimeLogic:All bacterial proteins (4,242 proteins sequences) were compared against 192 E. coli genomes (775 million symbols in 6- frames). DeCypherBLAST systems with 1 and 2 Engines complete the seach in 32 and 16 mi
5、nutes respectively. The DeCypher systems were installed in a 2 CPU Dell server. An 8-CPU cluster requires over 1 week to complete the task (216 hrs). Results: For this search, DeCypher delivers the performance of 400-800 CPUs.,专用计算机系统的优缺点,利用专用硬件加速方案的优点计算速度快、计算效率高使用费用低机器成本维护费用低廉(功耗低、体积小)利用专用硬件加速方案的缺点
6、程序移植困难可重构计算将方便算法的硬件实现过程,几种算法的计算速度和数据质量比较,序列联配算法的加速方法,启发式算法FASTABLAST这两种方法会损失敏感度并行计算方法把数据库分布在多个节点使用MPI通讯硬件加速计算方法,硬件加速的典型工作,R. J. Lipton和D. P. Lopresti在1985年观察到并指出,可以利用动态规划算法中隐含的并行性将其映射到一个脉动阵列结构中,并且可以通过恰当地设置编辑操作的分值以有效地简化每个PE的设计。在此基础上,他们于1987年实现了P-NAC(Princeton Nucleic Acid Comparator)系统91年加州理工的BISP(Bi
7、ological Information Signal Processor)9193年布朗大学的B-SYS(Brown Systolic Array)和Splash 9799年UCSC(Univ. of Cal. at Santa Cruz)开发了Kestrel 96年法国IRISA在BISP基础上改进实现了SAMBATimeLogic公司DeCypher系列产品Paracel公司的GeneMacherII、BlastMachine (Closed)2002年Xilinx JBits Smith-Waterman2003年香港中文大学Pilchard,序列联配算法的加速方法总结,除了启发式算法
8、,主要还有以下一些方法用于对各种序列联配算法进行加速: 采用超级计算机进行并行计算:最具弹性,如加速比相对较小、性价比较低、使用维护比较复杂等。采用专用的的VLSI:对某个算法性能最高,典型的系统如P-NAC、BioScan、BISP、SAMBA等,但研制费用高、周期长、灵活性较差。采用可编程的处理器阵列:这种做法希望能够兼顾灵活性、专用性和加速性,典型的系统有B-SYS、Kestrel等,但对控制的要求较高,虽然可编程,但由于运算精度、运算类型、运算速度等多方面的因素使这种系统并没有得到大规模的应用。采用可重构硬件:设计修改相对比较方便,例如早期的Splash和Splash-2,近期的Pil
9、chard、以及Decypher等系统。尤其是在近年来,随着微电子技术的进步,这种方法的优点日见突出,传统加速方法的局限性,大部分的工作都集中于如何实现更多的计算单元以及如何提高峰值的处理速度等方面许多设计因为结构的问题限制序列的长度不能超过阵列的长度许多设计要求主机系统保证序列能够及时地进入脉动阵列,对主机操作系统的实时性也提出了较高的要求。大部分加速卡和主机系统的总线接口带宽相对较低,这也影响了他们在其他类型的算法中的应用 这些问题影响了加速卡在实际系统中的应用,华大基因中心和计算所的合作,计算所研制的曙光2000和曙光3000系统安装在华大中心华大利用曙光3000系统上完成了水稻基因组框
10、架图绘制工作,这一工作以封面文章的形式发表在2002年4月的Science杂志上近期华大正在进行超级杂交水稻基因组分析等工作 在进一步的工作中,我们发现现有的高性能计算能力仍然不能满足高速增长的需求:水稻基因组完全图的绘制工作,需要对1000万个短片段进行拼接,如果使用现有的拼接算法,如Phrap、CAP3、GAP4,无论是内存还是计算速度都无法满足需求;序列比对:现在的Blast只适合于长度为几兆的片段之间的比对,而且该算法的敏感度不够好,而现在感兴趣的是对两个长达数百兆的基因组之间的比对,这已远远超出了现有的计算能力。,课题执行情况评价,本课题总体目标要求:,最终目标:研制一套生物信息学专
11、用系统,以相对较低的硬件成本达到4万亿次系统的处理能力,以实现专用、高效、经济的目的。面向生物信息处理处理基因数据、功能基因组分析、蛋白功能分析研究基因联配、蛋白质折叠等算法的硬件实现技术从算法、体系结构、芯片设计、存储系统设计、快速数据传递等几方面,研究专用数据处理硬件系统的设计技术2-3项发明专利10篇左右有影响的高质量学术论文,课题组完成如下工作:,生物专用机(曙光4000H一台);申请发明专利3项,软件登记1项。达到课题任务书规定的23项专利技术;发表SCI、EI收录学术论文11篇。完成了课题任务书规定的高质量学术论文10篇要求。开展应用试算,完成基因组水平的水稻杂交优势研究;完成黑猩
12、猩人类基因组比较计算;完成mRNA预测计算。相关研究成果将在Science等刊物上发表。,取得的成果的水平和作用,取得的主要成果 (1),研制曙光4000H生物信息处理专用计算机 采用“通用体系结构+专用硬件加速部件”相结合的方法来实现的技术方案从算法、体系结构、芯片设计、存储系统设计、快速数据传递等几方面研究关键技术,充分利用现有的曙光超级服务器成熟的Cluster技术采用高密度化、微型化的技术路线,解决了数据密集型问题开展了动态规划算法细粒度并行计算研究,使之适合硬件的大规模并行处理,并成功研制专用硬件加速部件,4000H网络拓扑结构图,生物专用机的通用体系结构,该系统具有通用的Clust
13、er结构5个服务节点40个计算节点组成,节点类型:双Xeon SMP系统节点数量:45个CPU数量:90个系统总内存容量:130GB系统总存储容量:2TB系统互连网络:双千兆以太网通用部分峰值浮点计算能力:5040亿次,取得的主要成果 (2),基于FPGA的算法可重构硬件加速卡,基于FPGA的算法可重构加速卡,FPGA容量已高达数百万门,管脚1000条,频率可高达100200MHz可以将成百上千个比较简单的PE设计到一片FPGA中,这些PE可以构成一维或二维的脉动阵列,以脉动的方式工作。由于每个PE在一个时钟周期内能够完成的工作往往相当于几十条通用CPU的指令,因此其主频通常只有100MHz左
14、右,但相对于通用CPU仍能得到上百倍甚至数千倍的加速比。FPGA与ASIC相比有很多优点:FPGA是可重构的,也就是说当算法发生变化时,可以非常方便地对其逻辑进行重新构造,重构一次只有几十ms;FPGA的开发周期相对比较短,没有ASIC设计过程中的版图设计等非常耗时的后端设计过程。,序列联配问题的定义与分类,序列的联配(Alignment)定义如下:将两个或多个符号序列按字母比较,并尽可能确切地反映它们之间的相似或相异,这一过程称为序列的联配。主要的生物序列的分析和计算任务:序列相似性的比较 多序列的联配,两条序列联配的主要问题,全局联配(Global Alignment):输入两个具有相同长
15、度的序列S和T,输出两个序列之间的最大相似度差异并找出最佳的排列。局部联配(Local Alignment):输入两个序列S和T,两者的长度可能不同,输出S的一个子序列和T的一个子序列的最大相似度(最小差异),并找出具有最大相似度的两个子序列,编辑距离及加速思想,编辑距离能够在很大程度上测量出两条序列的相似性 需要使用动态规划算法对矩阵相似度进行计算,但并不需要输出矩阵的每个点的分值,只需要最终的矩阵的右下角的分值,这个值也就表示了这两条序列之间的编辑距离 编辑距离的计算过程和全局联配Smith-Waterman算法的计算过程是等价的,主要区别编辑距离的计算是一个求最小值的过程,全局联配S-W
16、算法是一个求最大值的过程。硬件加速的技术思想:利用加速卡对数据库中的序列进行快速的过滤或筛选,再用主机对少数筛选出来的结果进行更进一步的分析,包括完整得分矩阵的计算和路径的回溯等,编辑距离的计算方法,前提条件为:,递推关系为:,算法到逻辑的简单映射的问题,每个PE中将有5个加法器、6个比较器、1个二选一以及多级组合逻辑电路,PE的数据宽度也将随着PE的个数而增加,例如,当N512时,PE的数据宽度至少应该等于10每个PE至少将消耗约120个LE如果采用Altera Stratix系列的EP1S30 FPGA,只能实现约256个PE。这样的设计方法将很难提高PE的工作频率,其工作频率通常只能达到
17、5060MHz。因此,必须研究高效的算法硬件实现方法,编辑距离算法处理单元PE,编辑距离算法脉动阵列,编辑距离算法核心逻辑电路,Matrix-PCI型加速卡,Matrix-PCI型加速卡,编辑距离算法在加速卡的性能测试,编辑距离算法在加速卡上的测试结果分析,Xeon 2.8GHz CPU进行得分矩阵的计算时,每完成1个分值的计算需要约45个汇编指令,同时可以统计出该CPU的平均CPI0.6,所以每个循环将消耗约27个CPU周期,则该CPU的计算能力折合为103.7MCUPS。而加速卡的每个PE完成该计算过程则只需要1个周期,工作在133.33MHz的3072个PE阵列的峰值计算能力为409.6
18、GCUPS,所以理论上的加速比最高可以达到3950倍。实际测试最高加速比3800倍,ClustalW多序列联配算法,ClustalW是目前使用最广泛的多序列联配程序。它是一种渐进的联配方法,计算过程主要包括以下三个步骤:使用动态规划算法计算所有两两序列最优联配的分值,基于最优联配得到序列的两两之间的相似度,根据相似度再进一步构造距离矩阵。从距离矩阵出发,采用NJ计算产生系统进化指导树(Guide Tree),对关系密切的序列进行加权。从引导树的叶节点出发,遍历整个树直到根节点,逐步得到最终的多序列联配结果。该程序的第一个步骤需要对所有的序列进行两两联配,如果序列的数量为n,序列的长度为l,则这
19、一步过程的计算时间复杂度为O(n2l2),这也是整个程序中最耗时的部分,为加速计算提供了可能。,多序列联配整体加速比测试,多序列联配程序串行部分比例,多序列联配整体加速比测试结论,从图中可以看出,在一定范围内,多序列联配整体加速比与序列数量基本上成正比关系,即序列的数量越多,整体上得到的加速比越大。加速比的增长应该有一个极限,但由于多序列联配的时间非常之长,我们在测试过程中没有测到增长曲线的拐点。实际上,序列的数量越多,ClustalW中的串行部分即不可加速部分所占的百分比越低,随着序列数量的增长,程序中串行部分的比例迅速降低,但随着序列数量的进一步增长,程序中串行部分的比例逐步趋于极限,这也
20、暗示了加速比的增长也将趋于极限。,局部最优序列联配,局部联配在某些生物信息学中的应用可能要比全局联配更有实际的意义。在蛋白质序列的比较中,由于亲缘关系较远的蛋白质序列可能只有一些相互独立的相同片段,所以对其进行局部相似性分析更为重要也更为合理。另一方面,前面介绍的编辑距离算法中较少地考虑到序列的生物学意义,但实际上,在生物序列联配过程中,某些字符的匹配可能比另外一些字符的匹配更为重要,而不是仅仅考虑两个字符是否相同。因此,生物学家在统计分析的基础上建立了一套专门的替换矩阵(substitution matrices)用于联配的计算,序列局部联配算法PE设计,数据宽度为20位 序列的长度为32K
21、由硬件逻辑控制加减法器的下溢问题 Max电路由比较器和二选一电路两级电路来实现 关键路径:从F-in、E-out和H-out到H-out上包括了1级减法器、1级寄存器、3级比较器和3级二选一,共计8级电路,这条关键路径的延迟依赖于FPGA器件的特性,局部联配算法PE在FPGA中的实现,LUT部分用于实现(Si,Ti)功能项,即查找替换矩阵。这个模块共有10位输入和4位输出,如果使用普通的组合逻辑来实现需要消耗很多逻辑资源。用RAM来实现该LUT:10位输入和4位输出的LUT可以等价于一个有10位地址线的4位宽度的ROM,该ROM可以使用Altera FPGA中的M4K RAM配置来实现,ROM
22、中的数据可在FPGA上电时有Flash加载进去。使用ROM来替代LUT,不仅节省了FPGA中的逻辑资源,而且对该ROM的访问可以在1个周期内完成,也能够提高系统的工作速度。 PE中的其它逻辑,将消耗约270个LE,其中约有190个LE中使用了寄存器,其他LE则只使用了查找表。 Stratix 1S30共有一共有32470个LE,除了接口逻辑和其他控制逻辑,还可以实现约80个PE。 上述的关键路径中的从输入到加减法中间结果一级需要约5ns,剩下的路径需要约13ns,通过优化,PE阵列的最高工作频率可以达到80MHz,其峰值计算能力为6.4GCUPS。,局部联配算法在加速卡的性能测试,40kbp(
23、4kbp、20kbp、40kbp、60kbp、80kbp)(时间单位,秒),取得的主要成果 (3),提出了STE-Blast核心算法及其并行算法 Blast是使用最广泛的序列相似性搜索工具,采用启发式算法,其计算复杂性从S-W算法的O(n2)降为O(n);Mega-Blast优化了NCBI-BLAST算法,对查询序列进行批处理,同时在进行序列联配过程中采用了贪婪算法,其速度又有了大幅提高。但由于引入了批处理,使得内存消耗更大。我们从体系结构的观点出发,结合系统软件和操作系统的特点,提出了一种较好的可扩展的算法,通过对库造表,并将计算和输出重叠并行进行,隐藏I/O开销,不改变处理精度,大幅降低了
24、内存开销,成倍提高了计算速度;完善了STE-BLAST并行版本研究。,STE-Blast与MegaBlast运行时间测试对比,并行化的STE-Blast和MegaBlast运行时间对比测试,取得的主要成果 (4),RNA二级结构的硬件实现探索研究 RNA二级结构预测采用Vienna Package的算法,需要完成边长为N2的最小自由能三角矩阵的计算,而后可以寻找全局最小能量并进行路径回溯找到最佳折叠结构。确定由硬件完成矩阵计算,回溯则由软件完成。PCI-X接口可以给系统提供一个高效的数据传输通道,由PCI接口主机可以和卡上DDR RAM进行数据交换,将经过软件预处理的矩阵下载到DDR RAM中
25、,计算完成后矩阵数据通过PCI口输入到主机中完成后续的路径回溯等工作。能量矩阵的计算大致可以划分为VM项(计算多环结构的能量)与VBI项的计算(计算内环结构的能量)。由于VM与VBI计算所需要的数据以及计算特点有很大的差别,因此在设计中决定采取不同的硬件来完成。VM项的计算量为1/6N3,计算涉及大量的数据IO,因此在设计中如何压缩数据IO量是最为关键的问题。由于其中数据依赖过于复杂,导致逻辑控制十分复杂,有关研究工作仍在进行中。,取得的主要成果 (5),蛋白质空间结构特征是蛋白质功能分析、蛋白质相互作用、进化树构建和药物设计等研究的基础,我们综合运用图论、机器学习及数理统计方面理论,构建蛋白
26、结构模板库,并基于该模板库,提出了一种新的同源建模预测算法,可以更精确地预测出更多的蛋白质空间结构。相关研究成果将在Genome Research上发表。,取得的主要成果 (6),系统生物学主要多个基因如何通过相互作用,共同完成复杂的生理功能的。我们发挥计算所在算法方面多年积累的优势,使用图论、矩阵论等工具,和生物物理所、北京基因组研究所合作,在基因调控网络分析方面,提出了相互作用网络的谱分析方法,相关文章已经发表在NAR。,取得的主要成果 (7),我们主要使用统计理论工具,和生物物理所、北京基因组研究所合作,在蛋白质质谱数据分析方面,提出了基于Extreme Value Distributi
27、on的区分match和mismatch方法。现在正在和PG公司合作,研究洗衣粉中蛋白酶的鉴定。,取得的主要成果 (8),STE-BLAST应用。以数据量达到440MB的杂交水稻PA64的原始Reads和已有的336MB水稻基因组的比较,从而加速了PA64的组装工作。同时从比对的结果中发现了一些有差异性的区域,这些差异区域对于研究杂交水稻的优势工作具有重要的意义。ICT-ClustalW应用。该数据为1129 个基因家族,每个家族含有从哺乳类动物人、黑猩猩、小鼠、大鼠,到鸡、果蝇,直到酵母、植物等多个物种,包含了目前已测序的真核生物范围。这样的计算对于揭示真核生物的进化关系具有重要的意义。ICT
28、-FindRNA应用。开发用于从内含子发现microRNA;并对80Mbp,共45万条基因序列的内含子中,寻找microRNA。miRNA参与着生物体中很多基本生命过程的调控,在生命活动中起着非常重要的作用。,创新点、主要意义与影响,在硬件加速方面的创新,成功研制了全局动态规划加速卡PCI_GSW。包含3072个处理单元,主频达到133.3MHz,一块卡的性能就达到409.6GCUPS。和通用CPU(Xeon 2.8GHz)相比,对于全局动态规划专用算法,性能加速3600倍以上。在此基础上,进一步研制了局部动态规划加速卡,包含80个处理单元,主频达到80MHz,性能6.4GCUPS。在Blas
29、t内核算法改进和并行化方面。我们从体系结构的观点出发,结合系统软件和操作系统的特点,提出了一种较好的可扩展的算法,通过对库造表,并将计算和输出重叠并行进行,隐藏I/O开销,不改变处理精度,大幅降低了内存开销,成倍提高了计算速度。目前该算法是所有的BLAST性能最优的。,在高性能计算方面的创新,在Blast内核算法改进和并行化方面。我们从体系结构的观点出发,结合系统软件和操作系统的特点,提出了一种较好的可扩展的算法,通过对库造表,并将计算和输出重叠并行进行,隐藏I/O开销,不改变处理精度,大幅降低了内存开销,成倍提高了计算速度。目前该算法是所有的BLAST性能最优的,算法方面的创新点,提出了一种
30、新的同源建模预测算法,可以更精确地预测出更多的蛋白质空间结构。在蛋白质质谱数据分析方面,提出了Extreme Value Distribution的区分match和mismatch方法。在基因调控网络分析方面,提出了相互作用网络的谱分析方法,相关文章已经发表在NAR。,社会和经济效益(1),曙光4000H项目已经通过有关部门的资产评估,其技术价值高达以2400万元天津曙光计算机产业基地公司:该项目注册资金6,000万元人民币,中科院计算所投资2,400.00万元(曙光4000H技术成果),天津新技术产业园区管理委员会投资1,200万元,北京市曙光计算机公司投资2,400万元。,社会和经济效益(
31、2),促进了我国生命科学研究。为广大基因组学、蛋白质组学、医药科学、生物信息学等研究工作者提供一个先进、易用的科研工具,同时,增强我国在生物科学等基础学科研究领域的实力,在基因组研究方面占据国际领先地位。促进可重构计算这一新学科的发展。可重构计算近年来受到高度重视,是高性能计算的重要分支。传统的高性能计算在很多传统行业,比如石油、气象、天文等领域都发挥了重要作用,而面向生命科学提出的挑战,可重构计算也越来越显示出其巨大的威力,同时也提出了很多新的课题。在本课题执行过程中,课题组陆续获得三项相关领域国家自然科学基金项目支持,可重构计算学科成长起来。促进我国在生物信息产业的发展。生物信息学产生的技
32、术、应用、算法、软件和数据库,比如疾病相关基因、分子标记辅助育种技术、药物筛选技术等,都具有重要的经济价值,最终都将产品化,创造直接的经济效益。最终完成的生物信息处理专用计算机和软件包将占领国内市场,并力求在国际市场占有一席之地。促进多领域的交流,培养一批跨领域的优秀人才。生物信息学是一门新兴的交叉学科,它位于信息学、物理学、数学和生物学的交叉点上,因此多领域的联合和交流是促进这个领域发中的关键。我们通过建立联合实验室、合署办公、建立多专业领域人才队伍、举办生物信息学讨论班等方式做了一些尝试,并将进一步开阔思路,摸索促进交流的新方法、新措施。,研究队伍的建设课题研究阶段,培养研究员/副研究员6
33、名,出站博士后2名,博士毕业生3名,硕士毕业生5名。在读博士生、硕士生和硕士毕业生10名。其中已经有三人作为课题负责人,成功申请到国家自然科学基金支持。一批跨学科专业人才成长起来,以可重构计算为学术方向的科研团队已经形成。国内外合作和学术交流情况出国访问研究3.5人年,即将出国访问研究4.5人年,海外学者来访3人次。参与国内外学术交流6人次。和法国、加拿大、美国等相关研究机构建议起密切的学术交流和合作研究关系。,研究队伍的建设和人才培养,下一步工作设想,设想(1):百万亿次高密度基因组处理系统研究,未来35年,基因测序技术将面临重大突破,1000美元,1天时间,完成一个特定个体的全基因组测序将
34、成为现实。这将为以基因组学为基础的未来疾病诊断和治疗开辟广阔的前景,同时,对计算机技术提出前所未有的挑战。目前万亿次超级计算机完成人类基因组序列拼接计算,需要大约1年时间。因此,计算能力必须在35年内提高3个数量级才能满足要求。按照Moore定律,是不能满足该要求的。我们希望科学院启动“生物信息处理专用计算机”二期工程,在2007年底,完成百万亿次高密度基因组处理系统,设想(2): 粒子相互作用系统研究,课题组已经和中国科学院过程工程研究所合作,开展“粒子相互作用专用计算系统”前期研究,“粒子相互作用”是对计算化学、计算物理、计算生物学中相当一类计算问题的抽象,具有广泛适用性,全球在研最快的千
35、万亿次超级计算机Grape-6,就是面向类似应用问题的,目前已经达到360万亿次。预计在2008年前,可以完成全系统研制。曙光4000H的研制成功,为研制“粒子相互作用专用计算系统”奠定了坚实基础。我们希望及早启动相关研究,以“粒子相互作用”为应用背景,力争2008年,研制百万亿次;在2010年,研制成功千万亿次超级计算机,设想(3): 面向网络信息安全的专用计算机,研究一种面向网络信息安全的专用计算机系统采用通用系统标准接口专用部件的技术路线软硬结合:软件主要用于完成系统的数据流程的控制硬件主要用于完成关键算法的加速,解决系统的瓶颈实现按需扩展、系统均衡:对于网络、解码、匹配等瓶颈可以实现按需扩展,已达到系统均衡的目的专用硬件主要实现以下系统功能:高效捕包、协议还原、数据解码、字符匹配研究实现基于FPGA的算法可重构硬件加速卡,可以对某几种算法进行加速计算,如BASE64硬件解码算法、 LZ77硬件解压缩算法、字符匹配硬件算法,使专用计算机于通用系统相比系统的性能提高10倍以上,谢谢!,