1、分布计算系统原理计算机科学与工程系周兴社分布计算系统资源管理 引言 单机处理能力不断增强,应用需求不断提高 莫尔定律 复杂计算问题(大型科学计算、工程计算、数字仿真、动画设计等)需要计算系统提供强大的计算能力 单机系统甚至 SMP系统难以满足复杂问题的应用需要网络计算的发展动力( 1) 计算定律带宽 (盖尔德定律 )用户 (麦特卡夫定律 )硬件 (摩尔定律 )软件国际标准国际标准分布计算资源管理 基于网络的高性能计算已成为并行处理的主流模式之一 巨型计算机系统价格昂贵、通用性差。 高速网络与高性能工作站创造良好条件 基于网络的高性能分布计算系统具有优良的性能 /价格比分布计算资源管理 网络环境
2、下的分布计算资源管理 当代分布计算系统研究与开发的主要内容之一 较单机环境的处理机管理更为复杂 核心问题是系统模型与负载分布分布计算资源管理的系统模型 空闲工作站模型 基本概念 连入网络的工作站时常处于空闲状态 白天 30%以上空闲, 空闲工作站的含义未请求联机 no log in联机,但用户未操作,(规定时间内无键盘 /鼠标动作,无用户启动的进程运行)负载小于指定比例( 5%)的工作站视为空闲 充分利用空闲工作站,满足有关应用需求。系统模型( 2) 空闲工作站分配与使用 服务器驱动型一工作站空闲,主动宣布为可用计算服务器。注册表登记 /广播告知其他工作站用户通过远程命令使用之; 客户端驱动型
3、 请求服务工作站主动提出资源使用请求广播方式表明所要求的程序 /内存、特殊资源受到应答处理多个应答问题。7. Process runs8. Process exitsRegistryHome machine Idle workstationRegistrarRemote ManagerList of idle workstations4. Deregister3. Claim machine5. Set up environment6. Start process9. Notify originator2. Request idle workstation, get reply1. Machi
4、ne registers when it goes idle系统模型( 3) 远程进程的透明式运行远程服务功能分别处理与本机硬件环境相关的操作在本机执行(读键盘、写屏幕、可视化显示等)获取和改变进程状态等操作必须在远程机上执行。 工作站主返回操作的处理不予理睬,违背 “个人工作站 ”思想撤消引入的进程,前功尽弃,形成混乱迁移引入的进程,代码 /数据 /现场移动实现难度大,系统模型( 4) 处理资源池模型基本概念 复杂计算问题需要数十 /数百处理机同时计算(广义计算) 将分布处理资源组成资源池,依据需求一次分配一批处理资源 具有优良的可扩性 :负载增加,处理资源动态增加。 目前流行的基于网络的群计算( Cluster Computing) 属于该模型。