同步数据常见的应用场景包括以下4个种类型:Ø 只增加、无更新、无删除Ø 只更新、无增加、无删除Ø 增加更新、无删除Ø 增加更新删除1只增加、无更新、无删除对于这种只增加数据的情况,可细分为以下2种类型:1) 基表存在更新字段。通过获取目标表上最大的更新时间或最大ID,在“表输入”步骤中加入条件限制只读取新增的数据。这里要注意的是,获取最大更新时间或最大ID时,如果目标表还没有数据,最大值会获取不了。其中的一个解决方法是在“获取最大ID”步骤的SQL中,加入最小日期或ID的联合查询即可,如:SELECTMAX(ID)FROM(SELECTMAX(ID)ASIDFROMT1UNIONALLSELECT0ASIDFROMDUAL)2) 基表不存在更新字段。通过“插入/更新”步骤进行插入。插入/更新步骤选项:2只更新、无增加、无删除通过“更新”步骤进行更新。更新选项:3增加更新、无删除通过“插入/更新”步骤进行插入。区别是“插入/更新步骤”中的选项,去掉“不执行任何更新”的勾选:4增加更新删除这种数据同步情况,可细分为以下2种情况:1) 源库有表保存删除、更新和新增的信息。通过条件判断,分别进行“插入/更新”和“删除”即可,如下图所示。2) 源库没有保存增删改信息Kettle提供了一种对比增量更新的机制处理这种情况,可通过“合并记录”步骤实现,该步骤的输入是新旧两个数据源,通过关键字进行数据值比对,对比结果分为以下4种类型:“Identical”:关键字在新旧数据源中都存在,域值相同“changed”:关键字在新旧数据源中都存在,但域值不同“new”: 旧数据源中没有找到关键字“deleted”: 新数据源中没有找到关键字两个数据源的数据都进入下一步骤,上述4种结果类型作为输出表的标志字段进行保存。以下为示例:Ø 源数据库测试脚本createtablek1(f1varchar2(200),f2varchar2(200))truncatetablek1;insertintok1(f1,f2)values('1','11');insertintok1(f1,f2)values('2','22');insertintok1(f1,f2)values('5','5');commit;Ø 目标数据库测试脚本createtablek1(f1varchar2(200),f2varchar2(200))truncatetablek1;insertintok1(f1,f2)values('1','1');insertintok1(f1,f2)values('2','2');insertintok1(f1,f2)values('3','3');insertintok1(f1,f2)values('4','4');commit;合并过程如下:其中“合并记录”步骤的选项:执行后,查询K1_TEST结果如下:可以看到,该结果表的BZ字段保存了更新、删除、新增的记录信息,通过条件分支即可分别对这些记录进行相应的处理。“条件”选项:5测试效果Kettle提供了可视化的
设计
领导形象设计圆作业设计ao工艺污水处理厂设计附属工程施工组织设计清扫机器人结构设计
工具,基本上可通过拖拉配置的方式实现以上4种类型的数据同步,操作上相对较为简单。数据同步的性能与源数据库、目标数据库以及执行Kettle转换操作的主机相关,在笔者的测试环境上(源数据库和目标数据库部署在双核CPU/4G内存的PC机上、执行Kettle转换操作的主机配置为双核CPUx2/4G内存,JVM内存堆栈为256M)、最后一种类型的数据同步,15w的数据,在3分钟内可以完成。