1、中国矿大高性能集群各子模块介绍,1、集群拓扑结构图,矿大高性能集群拓扑图,71个刀片计算节点:2颗6核 2.66GHz CPU/24GB内存;2个胖计算节点:4颗4核1.86GHz CPU/32GB内存; 2个GPU计算节点:2块NV C2050 GPU; 4个登录、管理刀片节点;,Clusnap存储系统: 52TB裸存储;,网络: 双向40Gb infiniband 计算网络、千兆管理网络、百兆IPMI监控网络;,其它: Gridview集群管理系统;机房基础设施(机柜、UPS、空调散热系统等),2、节点介绍,节点刀片TC5600,曙光天潮TC5600机架式刀片HPC服务器是曙光公司开发的一
2、款突破传统服务器理念的HPC刀片产品,后视图,正视图,后视图,正视图,风扇电源模组,网络背板,PDU模块,刀片机箱,系统风扇模组在系统后部,TC5600系统组成,TC5600整体视图,机箱后视图,风扇电源模组,网络背板,PDU模块,刀片机箱,系统风扇,TC5600各部件规格,TC5600整体规格,TC5600刀片规格,TC5600产品特点,灵活运行环境,可安全运行在环境温度30摄氏度的机房中,有效降低了环境设备耗能,提高了数据中心总效能,降低了运营成本,刀片统一散热,TC5600刀片HPC服务器采用具有自主知识产权的机柜级front-to-back散热技术,内部无需风扇,也有效提高了设备可靠性
3、,超高计算密度,每机架在标准42U空间内提供80个DP节点,每机架可提供高达11.25万亿次计算能力,高效电源管理,TC5600刀片采用统一的电源管理策略提高了系统电源效率及机房配电系统的相间平衡率,新型的HPC刀片产品,TC5600使用说明,1 安装好机箱,2 打开风扇电源模组,3 打开刀片节点,4 安装系统使用,1 VGA接口2 主面板3 硬盘仓4 节点卡扣7 节点指示灯8 Power按钮及ID按钮9 USB接口,TC5600使用说明,KVM本地操作,本地KVM,连接好KVM和刀片节点的VGA和USB接线,即可对TC5600进行本地操作,远程KVM,通过TCP/IP网络协议可以登录到节点的
4、BMC芯片,进而打开节点的管理控制台,对节点进行远程操作,KVM远程操作,KVM远程操作时确保客户端和刀片节点BMC芯片的IP能够ping通,利用网络登录带到BMC芯片中,进而登录节点,对各个节点进行操作的方式,四路胖计算节点-I840r-GP服务器,13,性能更强劲、扩展更自由、维护更方便,规格,I840rGP前视图,A:超薄光驱槽位 B:网卡指示灯 C:前面控制面板 D:前置VGA 接口E:前置USB 接口(3 个) F:5.25 英寸设备扩展位 G:2.5 英寸硬盘位,GPU计算节点-W580I,什么是GPU?GPU英文全称Graphic Processing Unit,中文翻译为“图形
5、处理器”。GPU是相对于CPU的一个概念,由于在现代的计算机中(特别是家用系统,游戏的发烧友)图形的处理变得越来越重要,需要一个专门的图形核心处理器,所以就把专门处理图形部分的处理器叫做GPU。GPU为什么比CPU快?,W580I主要技术,W580I技术特点-多卡支持,强大的系统总线带宽多达9个PCI插槽4个PCI-E 2.0 X16规格的插槽,支持全长、全高、双宽图形卡,曙光图形工作站技术特点-系统散热,结构与散热优势GPU卡本身发热量和功耗都比较大,最大的可能达到单卡300W左右,对系统散热和功耗控制带来极大的问题特别是现在CPU与GPU数量的配比逐渐增高,也导致了在单一系统中需求更多的G
6、PU曙光产品采用标准的4U产品改良设计空间上可支持更多的GPU卡,目前系统本身最大可支持4片GPU卡散热上采用高效能系统风扇,并且分为内扇和外扇两部分,机箱内部4个热插拔智能风扇,可随机箱内部的温度进行转速的调节,机箱后部有2个可从机箱外部拆卸的热插拔散热风扇,3、存储系统介绍,存储系统组成,Clusnap+FC SAN存储,曙光CluSnap集群容错模块,第三天机器失效!意料之中!,第五天算完!,第一天平安无事!,第二天居然还平安无事?,第三天OMG,机器死机,要来的终究会来的.,第七天,运气不错,居然坚持了4天!,无CluSnap,有CluSnap,上帝保佑我能算完!,我很有底!,高速非易
7、失性缓存(Cache)的作用,t,t,t,t,t,T(运算时间)ttttt3t2t,如果一个运算需要设置N个检查点,则系统的损耗时间为:Nt,以一个需要32GB内存大小的应用为例,在通常的系统中,建立一个检查点需要32000/40=800秒的时间,如果你每天需要设置24个检查点,则需要额外消耗800245小时!,高速非易失性缓存技术可以大大降低将5小时降低为15分钟!,FC SAN存储-DS6310FE,FC SAN存储-DS6310FE,磁盘阵列概念和优点,磁盘阵列是一种把若干硬磁盘驱动器按照一定要求组成一个整体,整个磁盘阵列由阵列控制器管理的系统.,.传输速率快.储存容量可提升.提升I/O
8、每秒的数量.增加数据安全性及稳定性.大量数据快速及简易管理.增加可用运时间,减少维护,存储系统结构,后端,控制器A,控制器B,前端,存储结构图,SATASASFCSCSI,X86PoserpcIopPmc.,FCSASISCSIIB,WindowsLinuxMac.,外接式磁盘阵列柜各组成部分作用,控制器:处理IO请求、进行RAID运算,监控和管理整个外接式磁盘阵列柜,分为CISC处理器和RIS C处理器,属于系统的核心部件,类似于服务器的主板,一般处理器,内存,接口芯片都在控制器上,中高端磁盘阵列一般采用双控制器,或者多控制器架构。主机接口:用于连接主机(服务器),构建服务器与磁盘阵列之间的
9、数据交换通道,通常有SCSI、FC、SAS、iSCSI几种类型。扩展接口:用于连接磁盘扩展柜,扩大存储空间;通常有FC、SAS两种类型(扩展柜接口类型一般和主柜一样,SAS扩展柜连接距离短)。电源,风扇 :为整个磁盘阵列柜提供电力,磁盘阵列一般为冗余电源设计,用于散热。硬盘:FC,FC-SATA,SAS,SATA,SATA-SAS.,主流存储架构,DAS架构NAS架构SAN架构,DAS架构,DAS是Direct Attached Storage的缩写,即“直接连接存储”。它是指将外置存储设备通过连接电缆,直接连接到一台计算机上。采用直接外挂存储方案的服务器结构如同PC机架构,外部数据存储设备采
10、用SCSI技术,或者FC(Fibre Channel)技术,直接挂接在内部总线上的方式,数据存储是整个服务器结构的一部分 。,DAS架构,结构示意:,DAS架构,DAS方式实现了机内存储到存储子系统的跨越,但是缺点依然有很多: 扩展性差,服务器与存储设备直接连接的方式导致出现新的应用需求时,只能为新增的服务器单独配置存储设备,造成重复投资。 资源利用率低,DAS方式的存储长期来看存储空间无法充分利用,存在浪费。不同的应用服务器面对的存储数据量是不一致的,同时业务发展的状况也决定这存储数据量的变化。因此,出现了部分应用对应的存储空间不够用,另一些却有大量的存储空间闲置。 可管理性差,DAS方式数
11、据依然是分散的,不同的应用各有一套存储设备。管理分散,无法集中。 异构化严重,DAS方式使得企业在不同阶段采购了不同型号不同厂商的存储设备,设备之间异构化现象严重,导致维护成本据高不下,结构特点:,NAS架构,NAS系统拥有一个专用的服务器,服务器上安装着一个优化的文件系统和“瘦”操作系统,其作用类似于一个专用的文件服务器。这种专用文件服务器去掉了通用服务器原有的大多数计算功能,仅仅提供文件系统功能,用于存储服务。而且,NAS系统中的核心操作系统是经过特殊定制的,专门服务于文件请求且与主要的网络环境兼容。,NAS架构,结构示意:,NAS架构,适用范围:,小型局域网络,广域网邮件系统、办公OA,
12、校园网,文档归档,VOD等异构平台共享对性能要求不是极高的应用基于文件系统,不适合数据库应用,SAN架构,所谓的SAN(storage area network),即存储区域网络,是指在网络服务器群的后端,采用光纤通道等存储专用协议连接成高速专用网络,使网络服务器与多种存储设备直接连接。 SAN的最大特点就是可以实现网络服务器与存储设备之间的多对多连接,而且,这种连接是本地的高速连接。 SAN架构的优势在于:强大的扩展性、多种存储设备的集中和新架构支撑下的新型数据应用方式。,Fibre Channel,Fibre Channel (FC)是1994年由ANSI标准化组织制订的一种适合于千兆位数
13、据传输通信的成熟而安全的解决方案。Fibre Channel 与传统的SCSI技术相比,除了提供更高的数据传输速度,更远的传输距离,更多的设备连接支持,更稳定的性能,更简易的安装以外,最重要的是为SAN的发展提供了广阔的天地.,FC SAN,结构示意:,FC SAN,特点:,基于设备块级的访问模式扩展性好易于集中管理高可靠性、可用性、可维护性 负载均衡传输效率高,低延迟成本高,ISCSI SAN,ISCSI是一种基于开放的工业标准,通过它可以用TCP/IP对SCSI(小型计算机系统接口-一种数据传输的公共协议)指令进行封装,这样就可以使这些指令能够通过基于IP(以太网或千兆位以太网)“网络”进
14、行传输。,ISCSI SAN,ISCSI结构图:,ISCSI SAN,ISCSI的连接方式:,以太网卡+软件方式主机端采用标准的以太网卡,安装Initiator软件,通过Initiator软件将以太网卡虚拟为ISCSI卡,实现主机和iSCSI设备之间的SCSI协议和TCP/IP协议传输功能。这种方式由于采用标准网卡,无需额外配置适配器,因此硬件成本最低。缺点是进行ISCSI包文和TCP/IP包文转换要点主机端的一部分资源。硬件TOE网卡实现方式 主机采用TOE(TCP/IP Offloading Engine)网卡来连接网络,TCP/IP协议栈功能由TOE卡完成,而iSCSI层的功能仍旧由主机
15、来完成。 iSCSI HBA卡实现方式 使用iSCSI存储适配器来完成服务器中的iSCSI层和TCP/IP协议栈功能。这种方式使得服务器CPU无需考虑iSCSI以及网络配置,对服务器而言,iSCSI存储器适配器是一个HBA设备,与服务器采用何种操作系统无关。该方式性能最好,但是价格也最为昂贵。,ISCSI SAN,ISCSI SAN,特点:,基于设备块级的访问模式构建所需成本低,可以利用现存网络易于部署便于管理性能受网络带宽限制,DAS、NAS、SAN剖析,DAS、SAN的存储网络,FC、Ethernet占据绝大部分市场份额Infiniband(IB)存储逐渐兴起,RAID基本概念定义,RAI
16、D (Redundant Array of Independent Disks)即独立磁盘冗余阵列,RAID技术将多个单独的物理硬盘以不同的方式组合成一个逻辑硬盘,从而提高了硬盘的读写性能和数据安全性。根据不同的组合方式可以分为不同的RAID级别,RAID出现原因,RAID级别,RAID组合方式级别扩展,同时采用两种不同的RAID方式还能组合成新的RAID级别,RAID级别 RAID 0,D,H,L,C,G,K,B,F,J,定义:RAID0即没有容错设计的条带硬盘阵列(Striped Disk Array without Fault Tolerance),以条带形式将RAID组的数据均匀分布在
17、各个硬盘中,A,B,C,D,E,F,G,H,数据,A,E,I,RAID级别 RAID 1,RAID 1 定义:RAID 1又称镜像(Mirror),数据同时一致写到主硬盘和镜像硬盘,E,D,C,B,A,E,D,C,B,A,A,B,C,D,E,=,数据,RAID级别 RAID 5,定义:RAID 5与RAID 3机制类似,但校验数据均匀分布在各数据硬盘上,RAID成员硬盘上同时保存数据和校验信息,数据块和对应的校验信息保存在不同硬盘上。RAID 5是最常用的RAID方式之一,P4,A3,A2,A1,A0,B4,P3,B2,B1,B0,C4,C3,P2,C1,C0,D4,D3,D2,P1,D0,E
18、4,E3,E2,E1,P0,异或运算,A0,B0,C0,D0,A1,B1,C1,E1,A2,B2,D2,校验信息Px分布式存储,数据,RAID级别 RAID 6,定义:RAID 6 是带有两个独立分布式奇偶校验方案的独立数据硬盘(Independent data disks with two independent distributed parity schemes)。广义上讲,能够允许两个硬盘同时失效的RAID级别统称为RAID 6,狭义上讲,特指Intel的RAID P+Q技术。硬盘空间利用率为(N-2)/N,N为RAID6阵列硬盘总数,RAID组合级别 RAID 10,定义:RAID
19、10是将镜像和条带进行两级组合的RAID级别,第一级是RAID1镜像对,第二级为RAID 0。RAID10也是一种应用比较广泛的RAID级别。,A,B,C,D,E,F,G,H,A,A,C,B,B,C,D,D,E,E,F,F,G,G,H,H,RAID组合级别 RAID 0+1,A,B,C,D,E,F,G,H,定义:RAID 0+1是将条带和镜像进行两级组合的RAID级别,第一级是RAID 0,第二级为RAID 1。一般来说,RAID 0+1的失效概率要比RAID 10大,不过无硬盘故障下,RAID 0+1的读取速度要比RAID 10快,A,B,C,D,E,F,G,H,A,B,C,D,E,F,G,H,RAID组合级别 RAID 50,P13,F1,定义:RAID 50是将RAID5和RAID 0进行两级组合的RAID级别,最低一级是RAID 5,第二级为RAID 0,A2,P02,A1,A0,B2,B1,P01,B0,P03,C1,C0,P00,异或运算,A0,B0,D0,E0,A1,C0,D1,F0,B1,C1,D2,P12,D1,D0,E2,E1,P11,E0,F0,P10,硬盘0,硬盘1,硬盘2,硬盘3,硬盘4,硬盘5,异或运算,常用RAID比较,4、网络介绍,Infiniband计算网络,千兆管理网络,IPMI监控管理网络,