1、关宇 邓辉 王锋 季凯帆 许骏,科学工作流技术及在天文研究中的应用探讨,昆明理工大学 中国科学院云南天文台,Contents,科学工作流技术(SWF),对数据处理模式的改变,3,背 景,1,2,科学工作流技术(SWF),2,总 结,4,上世纪后期以来,天文学研究获得了突飞猛进的进展,主要推动力来自于众多的地面和空间的大中型观测设备所产生的海量观测数据。,背景,TB级,星表,数据的开放和共享使科学产出趋于最大化和最优化,对天文研究有一定的推动作用,PB级,数据,背景,数据释放平台(天文数据库)多波段天文数据交叉证认检索查询数据库,在数据处理与展现系统的实现过程中,科学工作流(Scientific
2、 Workflow)技术起到了关键性作用。科学工作流针对科学研究工作的特点,专注于大规模科学处理(e-Science)的定制,对科学数据进行管理、分析、模拟、仿真,提供辅助科学发现的环境。,背景,目前,科学工作流在生物领域、经济学等领域已经有了系统原型和初步应用。Taverna 生物信息学Kepler 理工类诸多学科Triana 信号、文本、图片处理DiscoveryNet 商业性质GridNexus 将科学工作流应用于科学数据的处理和展现,对科学研究的应用有一定的推动作用。,背景,科学工作流(SWF),工作流定义工作流(Workflow) 是一类能够完全或者部分自动执行的经营过程,根据一系列
3、过程规则,文档、信息或任务能够在不同的执行者之间传递、执行。-Workflow Management Coalition工作流(Workflow) 是一系列用来管理业务处理或计算活动的运营操作或任务。-Workflows for e-Science,科学工作流(SWF),科学工作流定义科学工作流(Scientific Workflow),是指将一系列在科学研究中所遇到的数据管理、计算、分析、展现等工作变成一个个独立的服务,再把这些服务通过数据链接组合在一起,满足研究人员在科学实验和数据处理中的需要,从而实现相应的处理与科学计算。,科学工作流(SWF),特点一 科学工作流采用数据驱动(Data
4、Driven)模式,科学工作流(SWF),特点二 科学工作流的定义与设计是全动态的,科学工作流(SWF),特点三 科学工作流处理的数据量大、数据类型更为复杂,科学工作流(SWF),特点四 科学工作流强调数据的可信度,科学工作流对数据处理模式的改变,过去,科学工作流对数据处理模式的改变,现在,代码模块化,科学处理软件包,自动观测系统,批处理、管道技术,提高处理数据的效率,科学工作流对数据处理模式的改变,将来科学工作流可定制的自动批处理系统处理的对象可以是数据,也可以是一个计算方法科学家的工作,就是根据自己科研的需要,通过简单的设置,对数据、处理方法进行组合,构建出一个自动数据处理系统,科学工作流对数据处理模式的改变,基本应用思想,科学工作流对数据处理模式的改变,处理工作量小处理流程完全固定,处理工作量大,传统的批处理模式,并行处理的科学工作流处理模式,科学工作流对数据处理模式的改变,并行处理的科学工作流处理模式,优势,根据处理任务的变化动态调整某一个处理单元的数量,以确保整体的计算能力,动态调整处理过程,对计算流程进行灵活重组与再定制,根据实际情况的变化新增或删除某些处理模块,容易构建定时执行与自动执行机制,满足全自动处理的需求,总结,科学工作流可以有效地满足当前数据处理、展现、发布等多种需要,对未来数据处理有一定的推动作用。,Thank You!,