云环境下优化科学工作流执行性能的 两阶段数据放置与任务调度策略 姓名:张灿摘要 v 云环境中跨数据中心科学工作流的高效执行通常 面临数据交互量大的问题。 v 本文给出基于相关度的两阶段高效数据放置策略 和任务调度策略。 v 最终通过实验表明,该策略能有效减少跨数据中 心科学工作流执行时的数据传输量,从而能有效 提升科学工作流的执行效率,并能减少资源的租 赁费用。主要内容 v 一、引言 v 二、相关工作 v 三、科学工作流形式化描述和问题分析 v 四、基于相关度的两阶段数据放置与任务调度策 略 v 五、实验分析 v 六、结论与展望一、引言 v 在众多科学研究领域中,科学计算过程往往由成千上万个步 骤构成,这往往需要对TB甚至PB量级的数据进行分析和处 理。在过去,科学家通常使用简单的方法编排任务以及管理 数据,但是这种方式不仅耗时而且容易出错。 v 科学工作流系统开始受到关注并被用来进行自动化科学任务 的编排、执行、监控以及追踪。随着问题求解规模的增大, 当今大型科学工作流通常需要在复杂的分布式计算机系统上 执行。 v 构造这样的系统往往需要付出异常昂贵的代价,申请访问这 些系统也需要复