1、高能物理海量数据迁移系统的设计与实现石京燕,臧冬松,程耀东高能物理所 计算中心大纲 背景与需求 迁移系统设计与实现 下一步工作数据迁移需求 数据密集型计算需要处理海量数据BESIII实验数据: 4PB 存储介质:磁盘,磁带 大规模数据迁移需求: 磁盘 磁带库 本系统应用对象:针对同站点 BES数据迁移BES数据分层存储结构BES数据分层存储结构(续) 登录结点服务器,提供用户登录连接、调试程序及提交作业。 用户提交的作业被批作业管理系统送到后端的计算结点上运行。 所有作业通过对共享文件系统的访问进行数据读写操作。 存储采用三级目录结构,计算结点本地硬盘 挂载在文件服务器上的磁盘阵列 磁带库。
2、较高的性价比。 迁移系统体系结构体系结构说明 用户接口接收用户迁移任务发送给数据传输控制器。 数据传输控制器分析迁移任务内容,将迁移任务包装成传输作业提交给数据传输服务器 数据传输服务器将传输作业分配到各个传输节点上运行 传输节点连接磁盘阵列和磁带库,完成二者之间的数据复制,迁移。 数据库用于存放数据传输作业具体信息,并实时更新作业运行状态。用户接口 命令行 网页传输任务控制器 分析传输任务 整理迁移文件 包装传输作业传输任务控制器(续) 实现方法 磁带库 磁盘 对磁带文件根据磁带位置进行排序 保证抓取,翻转磁带等机械动作用时最少 磁盘 磁带库 磁盘数据文件 磁盘 缓冲池 磁带 计算传输文件大小及个数,判断磁盘缓冲池状态 保证磁盘缓冲池有足免的空余空间 传输任务分割 根据磁带库实际情况将任务分割成多个作业并行进行