1、高性能计算系统技术方案建议书中国惠普有限公司2005.6*高性能计算系统方案建议书中国惠普有限公司 2目录第一章 概述 .31.1 高性能计算环境发展的趋势 .31.1.1 更高、更全面的性能要求 .31.1.2 向通用化方向发展 .41.1.3 更加严格的预算约束 .41.1.4 使用商品化部件 .51.2 高性能计算应用的特点 .51.3 高性能计算主机性能评价体系 .6第二章 设计方案 .92.1 系统设计原则 .92.2 总体方案结构 .102.3 SMP 计算服务器方案 .122.3.1 CPU 内存配置数量计算 .122.3.2 SMP 计算服务器型号及配置 .132.3.3 基于
2、 EPIC 的安腾芯片技术 .152.3.4 高性能计算环境 HP-UX 11i TCOE.182.3.5 计算任务提交及管理 .192.3.6 HP rx8620 计算服务器的特点和优势 .202.4 CLUSTER 计算集群方案 .212.4.1 HP Cluster 计算集群结构 .212.4.2 Cluster 节点系统配置 .242.4.3 节点互连、管理和用户网络 .262.4.4 Cluster 计算集群节点管理 .272.4.5 Cluster 计算集群作业管理 .282.4.6 HP Cluster 计算集群的特点和优势 .292.5 高性能计算外接存储需求分析 .302.6
3、 HP 方案的优势 .31附件 HP 的 HPC 应用及成功案例 .331 HP 的基础研究和国防研究 HPC 解决方案 .352 HP 面向计算机辅助工程 (CAE)的 HPC 解决方案 .382.1 HP 基于网络的一体化和虚拟化 CAE 解决方案 .382.2 HP 全面和丰富的 CAE 应用软件 .402.3 HP 面向 CAE 的 HPC 解决方案在中国国内的应用 .422.4 HP 面向 CAE 的 HPC 解决方案的成功应用实例 .43*高性能计算系统方案建议书中国惠普有限公司 3第一章 概述HP 公司非常荣幸能为高性能计算中心系统建设提出建议。作为全球最大的计算机厂商之一,HP
4、 公司具有一流的产品、技术和服务。在本方案建议书中,HP 公司推荐了先进的系统建设方案,考虑了系统的实用性、高可用性、安全性、可管理性以及灵活扩展能力。HP 公司凭借先进的技术和出色的支持服务,相信通过双方的合作,可使高性能计算中心系统项目顺利实施,从而为用户提供一个健壮、安全、高可用的运行环境,并进一步建立长期的友好合作关系。高性能计算系统是提高一个科研机构研究水平的重要基础设施,也是一个国家科技与经济实力的标志。它不仅是一个高速处理的计算机系统、更重要的是在其之上运行的各种应用对科学领域产生非常深远的影响。20 世纪 90 年代中后期以来,许多高性能计算应用领域越来越多地希望利用半导体和计
5、算机技术发展的新成果通过更大规模、更精确的数值模拟和数字计算来进行新产品设计和科学研究,提高科学研究水平、厂商市场竞争力以至国家的综合国力。另一方面,人们也要求利用工业标准芯片等开放性的技术降低投资、加速开发,在规定经费预算和时间框架内完成规模越来越大的计算任务。高性能和高经济效益相结合已经成为高性能计算领域最引人注目的发展趋势。1.1 高性能计算环境发展的趋势1.1.1 更高、更全面的性能要求高性能技术计算是利用数值模拟和数字技术方法探索和预测未知世界的技术。这一技术广泛应用于核武器研究和核材料储存仿真、生物信息技术、医疗和新药研究、计算化学、GIS、CAE、全球性长期气象、天气和灾害预报、
6、工艺过程改进和环境保护等许多领域。近年来,随着研究的深入和竞争的加剧,各个领域越来越多地使用模拟的方法来解决科研和生产中的实际问题。模拟的模*高性能计算系统方案建议书中国惠普有限公司 4型越来越大、计算的精度越来越高、对超级计算机性能要求也越来越高。例如,在一个 3 维模型中,如果把从每个方向取 100 个分点增加取到 1000 个分点,对计算机资源的需求将增加 1000 倍以上。高性能计算应用不仅规模越来越大,而且往往必须在规定的时间内完成任务否则就失去了计算的价值(如天气预报、传染病防治) 。这就对计算机系统的计算能力、系统带宽、内存容量、存储设备和 I/O 吞吐能力以及应用软件的开发技术
7、都提出了更高、更全面的要求。 1.1.2 向通用化方向发展过去人们一般把计算机应用分为科学计算、信息处理和自动控制等类型。其中,以信息处理为主的应用统称企业应用,是市场容量最大的应用领域。早期的企业应用与高性能计算应用有很大的差别,涉及的计算比较简单、使用的数据量也不大,对计算机系统的主要要求是能够支持大量用户(包括网上用户)进行事务处理如信息输入、查询和统计等,而对于计算能力、存储容量要求也不高。因此,高性能计算应用往往使用与企业应用不同的系统,影响了产品批量的扩大。当前,人类正在从工业化社会进入信息社会,技术的持续创新、市场需求的瞬息万变、竞争空间的迅速扩大,要求企业采用 Internet
8、、电子商务、电子商务企业等现代化手段,来适应时代的发展。许多新型的企业应用对计算能力、存储容量和系统带宽的要求都越来越高、越来越迫切,高性能计算 应用和其他类型应用的界限也日益淡化。当前,几乎所有应用领域都需要使用能够提供高计算能力、系统带宽和存储容量的计算机系统,促使用户选择相同的系统满足各种类型的需求,为利用大批量、低成本的通用产品满足高性能计算应用需求创造了有利的条件。1.1.3 更加严格的预算约束随着竞争的加剧和应用的普及,高性能计算不再是一个不惜工本的应用领域,许多项目的预算约束越来越严格。这就要求厂商生产全系列的产品满足不同规模应用的需求、更加可靠地保护用户原有投资、加速 IT 投
9、资回报,而且也要求实现资源按需供应和更大范围的资源共享,推动了网格和公用服务等新的计算模式的发展。*高性能计算系统方案建议书中国惠普有限公司 51.1.4 使用商品化部件为了促进高性能计算广泛应用必须降低成本,否则很难为更多的用户所接受。由于高端的高性能计算系统(特别是超级计算机)需要使用许多计算节点和互联设备等部件,因此必须保持每个部件的低成本。早期的超级计算机系统使用专门定制的处理器和互联设备等部件价格非常昂贵。以后,Cray Research 公司的 T3D 和 CRAY T3E 开始使用商品化的 Alpha 处理器。当前商品化处理器和服务器性能日益提高、价格也日趋下降,为利用它们建立高
10、端和超级计算机系统提供了良好的基础。为此,美国政府还推出了 ASCI 计划,力图降低超级计算机系统的成本,其主要途径是尽可能采用商品化市售(COTS)硬件和软件部件,把力量集中在发展主流计算机工业不能有效地提供的专门技术。目前已经很少再有厂商使用专门的部件如向量处理器来建立超级计算机系统。今后的发展趋势是在高端和超级计算机系统中尽可能普遍地采用商品化和大批量的工业标准部件,包括处理器、互联设备、I/O、存储、操作系统、语言、编译程序、编程工具和应用软件。人们注意到,基于开放性 IA32 体系结构的 Xeon 和Pentium 4 处理器的超级计算机已经在 TOP500 占有重要地位。新兴的 I
11、tanium处理器系列(IPF)必将以其开放性、大批量和 64 位寻址和处理能力,对超级计算机水平的提高产生划时代的影响,以远比 32 位体系结构时代高的性能和性价比来满足日益增长的需求。我们深信,通过采用 HP 的高性能计算系统 ,必将加速在高性能计算领域取得更加丰硕的科研成果。1.2 高性能计算应用的特点在传统意义上高性能计算应用是属于 CPU 和内存密集型的应用,它对所运行的计算机体系结构(超级计算机体系结构)提出了几个主要的要求: 浮点计算能力(尤其是 64 位双精度浮点运算),内存带宽和内存容量及体系框架。所有这些因素都是相互关联的。高性能计算通常利用各种数学方程式来建立模型和模拟物
12、理现象。随着各种模型越来越大,越来越复杂,数据集的规模*高性能计算系统方案建议书中国惠普有限公司 6也急剧增长。例如,一个 100*100*100 的栅格包含 100 万个元素,该模型仅占用 32MB 内存,如果此栅格的分辨率提高 10 倍,这一模型就变为1000*1000*1000,包含 10 亿个元素,此模型的原始数据将占用 32GB 的内存!因此不论是分布式内存还是共享式内存,要将此数据传输至内存中,由 CPU 处理,就需要高带宽,高容量,低延迟的体系结构,当然还需要强大的 CPU 进行计算。而超级计算机主要用来处理这样庞大的工作负载。这样的负载所要求的超级计算机一定是采用快速的 CPU
13、,高性能的内存和 I/O 子系统,旨在实现最高的运算速度。同样这样的负载所要求的超级计算机还必须采用多级别并行处理技术,能够利用几十个甚至几千个处理器来处理一项任务;这样的并行处理技术也需要超级计算机要采用高性能的互连设备和系统设计,以较高的成本去换取最高的性能。1.3 高性能计算主机性能评价体系衡量主机系统或处理器计算处理能力的测试体系(BenchMark)也有多种,如SPEC、Linpack 等, 尤其是通过 Linpack 值更可以衡量一个主机系统或一个处理器芯片的实际运算能力, 而不仅仅是虚的理论峰值能力。过去,人们使用系统能够达到的执行指令最大速率如每秒执行百万指令数/浮点操作数(M
14、IPS/MFLOPS)来量度计算机硬件性能。但是,这些量度指标的实用价值十分有限,它们只能给出理论上最大的性能,并没有全面反映计算机系统的实际性能如内存带宽、内存延迟和 I/O 性能等。此外,硬件性能量度和系统体系结构都是非标准的,使得人们很难使用它们作为服务器选型的性能指标。因此,出现了计算机系统性能基准测试的概念,即由某些中立的非盈利机构开发出一组经过精心统筹设计和组合的程序,来量度计算机系统运行这组程序的性能指标。此类程序一般称为基准测试程序。不同的计算机系统都运行同一组基准测试程序,就可以相对客观地比较计算机系统的性能。目前有许多专门设计基准测试程序和管理各种计算机系统基准测试指标的机
15、构,其中最著名的是SPEC 和 TPC。 *高性能计算系统方案建议书中国惠普有限公司 7基准测试可以分为三类: 1) 系统基准测试指标:用于测试计算机各子系统的性能,其中主要有: SPEC CPU2000 用于处理器子系统的指标; McCaplin Stream 用于测试内存带宽指标; TPC-C 用于测试在线事务处理指标性能指标; 2) 标准应用基准测试指标:用于测试计算机系统执行某种标准的应用的性能指标,其中主要有: SPEC WEB 99 用于测量计算机执行 Web 应用的性能指标; SPEC MAIL2000 用于测量计算机执行电子邮件应用的性能指标; SPEC JBB2000,SPE
16、C JVM98 用于测量计算机执行 JAVA 应用性能指标; Linpack 用于测量计算机进行线性代数计算的性能指标(也常作为测量计算机浮点计算速度的基准测试指标) ; SPEC HPC96 用于测量计算机执行高性能计算应用的性能指标; SPEC SFS97 用于测量计算机执行网络文件系统应用的性能指标; TPC-D 专门用于测量计算机执行数据仓库应用的性能指标; SPEC glperf 和 SPEC viewperf 专门用于测量计算机执行图形和图象显示方面应用的性能指标;3) 实际应用基准测试指标:许多重要的独立软件开发商(ISV)都制订了计算机系统运行本公司开发的软件产品的基准测试指标
17、。例如,在数据库应用方面 Oracle、Informix、 Sybase 公司的基准测试指标;在企业应用方面 SAP、SAS、PeopleSoft、Baan 等公司的基准测试指标;在高性能计算方面运行 Amber、CHARMm、Fluent、LS-DYNA、MARC、ANSYS*高性能计算系统方案建议书中国惠普有限公司 8等著名应用软件的指标等; 一般地说,系统基准测试指标测试的计算机子系统的性能,而其他两类基准测试指标则主要测试计算机执行某种或某个特殊应用的性能。基准测试指标在用户服务器选型工作中具有重要的作用,许多用户都根据它们来决定设备选型。但是“全信书不如无书” 。对基准测试必须持一分
18、为二的观点。一方面,虽然基准测试的环境和用户的实际应用环境不完全相同,但是它们毕竟比较客观地反映了计算机系统某一方面的性能,对性能评估和搞好服务器选型工作都有相当大的参考价值;另一方面,任何基准测试指标都是在人为设定的特殊条件下得到的。虽然,设计基准测试的机构尽了很大的努力使得基准测试条件尽可能符合实际、具有代表性,但真实的应用环境规模大、软件类型多其组合更是千变万化。基准测试的条件不可能完全反映实际应用的复杂性,基准测试指标不可避免地具有某种片面性。因此,在进行设备选型时必须尽可能了解所使用的各项基准测试指标的实际含义,包含产生它们的环境和测试方法等。为了避免片面性,对服务器系统的性能指标、
19、特性和厂商进行全面考察,将是搞好服务器选型工作比较科学和可靠的方法。 *高性能计算系统方案建议书中国惠普有限公司 9第二章 设计方案2.1 系统设计原则帮助用户建立一套既能最大限度地满足用户实际需要且技术又处于领先地位的高性能计算环境是 HP 公司为高性能计算用户设计方案的基本出发点。HP认为,高性能计算系统应具有处理大规模的复杂运算,尤其是浮点运算的能力 。它将为提供优化工程设计、分析、验证的手段,最终实现提高设计质量、缩短开发周期、降低开发成本。方案设计以用户现场测试结果为基础,根据用户对未来应用模式及业务量需求预测为前提,强调高性能以及可行、合理和低风险。架构设计和系统选型遵循以下原则:
20、1先进性本系统方案所采用的技术既要符合业界的发展方向,又要在未来几年内仍具有很高的技术先进性,保持在同类系统中的领先地位。这样有利于提高整个系统的计算与处理能力 。2. 有限投资获取最大计算性能在有限的投资前提下,高性能计算系统应具有优秀的处理能力,它不仅具有符合要求的峰值性能 (Peak Performance), 更重要的是应具有稳定的应用性能(sustained performance) 。各种复杂的研究课题在本系统中能够得到准确,快速的计算结果 。3. 可扩展性 系统应具有很强的扩展能力 。 随着对计算机系统性能的要求不断提高, 该计算机系统应具有扩展能力, 并且容易实现 。4. 开放
21、性和兼容性本计算机系统应符合公认的工业标准, 包括体系结构,硬件,I/O, 网络,操作系统,开发环境和开发工具等 。这样,便于和其他平台上的系统互操作 *高性能计算系统方案建议书中国惠普有限公司 10。 5应用软件丰富本系统的平台上应具有丰富的软件资源, 能够提供研究课题的解决方案和相应的软件系统 。HP 公司与高性能计算方面的独立软件开发商紧密合作,例如:Fluent,ANSYS 等专业工程软件商,Red Hat,Etnus,Pallas,Platform 等专业平台软件商, 不仅提供处理节点间的协调和通信的中间件,使整个系统节点能够真正实现合作,负载均衡,还能针对不同应用需求,提供一系列并行计算应用。6. 良好的技术支持由于本系统是比较复杂的计算机环境, 在使用过程中不可避免的会遇到一些技术问题。 当遇到这些问题时能够得到有效的支持, 使问题得以圆满的解决 。7性能价格比优越由于本系统比较庞大,价格因素也比较重要。 本系统在性能价格比方面在同类系统中应具有明显的优势,对于三院三部来说在采购大型系统中应该考虑的重要因素。8管理简单尽量减少数据中心的设备管理难度。2.2 总体方案结构针对系统高性能计算应用的特点,结合与相关业务处室的沟通。从满足应用需求的角度出发,我们建议建立一个高可扩展、易管理的混合 SMP 与Cluster 结构的高性能计算环境,整体方案架构如下: