基于事务日志的数据同步模型研究.doc

上传人:gs****r 文档编号:1611346 上传时间:2019-03-08 格式:DOC 页数:7 大小:54.50KB
下载 相关 举报
基于事务日志的数据同步模型研究.doc_第1页
第1页 / 共7页
基于事务日志的数据同步模型研究.doc_第2页
第2页 / 共7页
基于事务日志的数据同步模型研究.doc_第3页
第3页 / 共7页
基于事务日志的数据同步模型研究.doc_第4页
第4页 / 共7页
基于事务日志的数据同步模型研究.doc_第5页
第5页 / 共7页
点击查看更多>>
资源描述

1、基于事务日志的数据同步模型研究摘 要:在传统数据库同步技术基础上,针对数据集成系统的异构性,研究了一种新的基于事务日志的数据同步模型。通过对异构 DBMS 的事务日志进行分析,提出一种通用的事务日志的变化捕获方法,结合数据库的事务工作过程,在窗口机制的约束下将提取的增量数据按照统一的规范集成到共享数据库形成全局模式,再将增量数据加载到共享端实现数据过滤和映射。实验结果表明,在正确设置具体应用环境下的时间窗口时,该模型可有效降低数据同步的时间开销,保证了数据一致性。 关键词:异构性;事务日志;数据变化捕获;数据同步 引言 为了屏蔽异构的应用系统在集成共享数据库时造成的“信息孤岛”局面,需要将异构

2、的数据副本(replica)集成到统一数据平台,按照预处理规则完成数据变化捕获、数据分发、数据转储与加载,以及冲突数据的检测和解决,以向用户提供统一的数据全局模式1-2,实现数据的同步更新。 数据的同步更新方法中:文件传输方法3的缺点是效率和可靠性较差。数据复制方法4将主节点的数据更新副本拷贝到从节点并修改从节点上的副本,主要应用在具有高自治性的分布式数据库系统中。数据变化捕获5(Change Data Capture,CDC)方法利用触发器、时间戳机制,将数据更新记录到 CDC 初始化时创建的表或者队列进行发布。CDC 方法在近几年的数据同步领域获得了关注,通过它不仅能获得待同步副本对象的变

3、化序列或当前映像,还能提供详细的控制信息6。而 CDC 方式主要有下面几种,其主要性能参数如表 1 所示7-8。 然而,上述所有 CDC 方法都不能完全实现实时、双向和增量同步,文献9基于数据库日志的 CDC 方法可以实现对不同的日志类型进行分析,并利用应用程序接口读取日志文件,分析了针对不同类型日志文件的可靠性读取规则和方法,但是对数据变化捕获算法缺乏深入的研究,而且缺少统一描述。文献10的 RTDWH 是数据仓库中的 CDC 方法,虽然可以保证数据更新的成功率,但是对事务处理性能耗损较大。 因此,文章提出一种异构环境下的基于事务日志的数据同步模型(Transaction Log-based

4、 Data Synchronous Model,TLDS) ,从事务角度阐述了主要模块的工作流程和原理。此外通过对事务日志的结构进行深入分析,设计了基于事务日志的变化捕获算法。最后进行了实验并对结果进行分析,保证了数据更新效果的同时对系统的性能影响也有所降低。 1 TLDS 模型 TLDS 模型要达到如下功能:各业务子系统维护的共享数据能实时同步到共享数据库中;对于已经进入统一数据共享与交换平台的数据,可以提供自动实时同步或者按需手动同步。按照该功能需求,结合数据交互工具 OGG 的工作原理,设计如图 1 的 TLDS 模型。 1.1 事务日志 事务日志记录一系列事务对数据库更新的日志序列,是

5、维护数据完整性和一致性的重要依据,包括所有数据操作语言(DML)和数据定义语言(DDL)的记录。它以事务为单位持续写入,记录了在每个事务期间,对数据的更改及撤消更改所需的控制信息,包括事务开始(表示为) 、事务提交(表示为) 、异常终止(表示为) 、检查点记录(Checkpoint Record) 。 1.2 数据变化捕获、传输、转换与加载 (1)数据变化引起新事务产生,该新事务由 LGWR 写入日志后,标识该日志记录的 LSN 和该事务的 TID 会相继自增。日志的提取操作从初始时刻的 head file 开始,如果用户对数据库进行如下的事务操作: TX=, , ,; 直至 polltime

6、1 设置的时间段结束,停止事务日志对数据的继续读取,记录这个事务日志的 LSN 号作为捕获检查点(capture checkpoint) 。由于事务 TX1 和 TX4 最终只有和指令,因而不对其进一步处理,而只有TX2 和 TX3 写入 trail 捕获队列的事务操作,将获得的更新数据组成trail 队列进行传输。 (2)数据序列在等到 trail 传送队列的缓存被写满或者到达指定的时间,即达到 2.3 节设置的窗口边界值的条件之后,停止数据传送,并记录还未写入 trail 传送队列的事务日志的 LSN 号作为传输检查点(pump checkpoint) 。已提交的 TX 事务操作段内已经提

7、交的事务序列有TX2 和 TX3,如图 2 所示,pump checkpoint 写在之后,因此最终写入trail 传送队列的事务操作只有 TX2,TX3 需要等待下一轮的 trail 传送队列。 (3)对已传送的事务进行数据转换与加载,trail 传送队列以元 组的形式记录数据更新信息,将他们被发送到目的端后,对更新信息的主键值以及更新的前、后像值经过本地解析还原并创建出对应的 SQL更新语句。利用数据库的本地接口将这些 SQL 语句应用到目标端,实现目标 DB 的同步执行。更新信息成功提交到数据库后,也要记录下这个事务日志的 LSN 号作为保留检查点(replicat checkpoint

8、)保存已经完成本地应用的位置,保持数据的完整性。 1.3 窗口机制 文章引入窗口机制,对事务日志定义了事务窗口、用户需求窗口、时间周期大小窗口和缓冲区窗口等以避免数据处理不协调,而以时间周期窗口和缓冲区窗口较为常见。事务日志的关系如下: (1)IF Ta.beginLSNTb.beginLSN,表明事务 Ta 先于 Tb 发生; (2)IF TmitLSN 在以上条件下定义窗口的交替或者迁移。窗口的交替或者迁移可以由任何事件触发,触发后产生事务集T=ti|Litj,iLSN,jTId,即只要满足: 两个条件就能判定 Ta,TbWk,即事务 a 和 b 都是属于该窗口内的,并且 Wk.l 和 W

9、k.r 分别表示其左右边界,其中的 a,b,k 均为自然数。 2 实验结果及分析 实验环境:分别使用 WIN 环境下的 SQL server 2000 和 Oracle 11gR2,通过 Exp/Imp 保持 SourceD, TargetDB 相关 Schema 中的初始数据一致;安装 OGG,对源数据库的归档模式、最小附加日志模式和强制日志等参数进行设置;分别建立 ggate 测试用户,添加 manager 管理服务;分别开启复制队列和同步队列并添加检查点表;开启同步任务。实验结果如表 2 所示。 结果及分析:根据上述结果,会发现日志文件规模影响到数据同步时间和同步发生频率。日志文件规模较

10、小时,同步发生频率可以稍微偏高,日志分析工具的运行会影响数据库效率,这种发生频率主要应用在对实时性要求相对高的场合;但是日志文件规模设置较大时,又会出现数据同步时间过长(必须在晚上等非工作时间运行) ,主要应用到对数据实时性要求不高的场合。 3 前景展望 文章通过事务日志的分析,研究了一种 TLDS 模型,在忽略异构数据库的 DBMS、数据模式、数据类型的基础上,实现已有的业务系统和共享数据库之间的数据同步,使数据在本地更改的同时传送到其他业务节点上,并对该节点上的数据副本进行修改。下一步的工作是针对异构数据源日志的可靠性读取及相关的应用问题进行更加深入的研究。 参考文献 1Pucciani

11、G,Domenici A,Donno F,et al.A performance study on the synchronisation of heterogeneous Grid databases using CONStanzaJ.Future Generation Computer Systems,2010,26(6):820-834. 2Gustafsson T,Hansson J.Dynamic on-demand updating of data in real-time database systemsC.SAC 04 Proceedings of the 2004 ACM s

12、ymposium on Applied computing. New York:ACM,2004. 3张虎,董小社,伍卫国,等.一种基于日志合并优化的数据同步机制J.小型微型计算机系统,2006,27(12):2183-2188. 4Saito Y,Shapiro M.Optimistic ReplicationJ.ACM Computing Surve ys (CSUR) ,2005,37(1):42-81. 5Dan Snoddy,James Spyker,Mir Rupik,et al.Change Data Capture: what is it and how it impacts

13、solution architectureC.CASCON 09 Proceedings of the 2009 Conference of the Center for Advanced Studies on Collaborative Research.Riverton,New Jersey:IBM Corporat ion,2009. 6许力,马瑞新.基于快照比对的增量数据捕获研究与实现C.第三届全国信息检索与内容安全学术会议,苏州,2007. 7刘胜,杨岳湘,邓劲生,等.基于关键属性比对的增量数据抽取方法J.计算机工程与应用,2012,48(4):115-117. 8张春玲,吕震宇,刘

14、遵峰.基于虚拟日志压缩的数据同步方案J.计算机工程,2010,36(18):67-69. 9邹先霞,贾维嘉,潘久辉.基于数据库日志的变化数据捕获研究J.小型微型计算机系统,2012,33(3):532-536. 10Shi Jin-gang, Bao Yu-bin, Leng Fang-ling, et al.Study on Log-Based Change Data Capture and Handling Mechanism in Real-Time Data WarehouseC.Proceedings of 2008 International Conference on Computer Science and Software Engineering,Wuhan, Hubei:IEEE Conference Publications,2008.

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文资料库 > 毕业论文

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。